Skip to main content

Fachverlag und Nachrichtenagentur

Évaluation des capacités de raisonnement médical du GPT-4 dans des cas complexes d’ophtalmologie

DEEP LEARNING Québec – Afin d’dévalue la compétence du transformateur génératif pré-entraîné (GPT)-4 à répondre à des questions sur des cas cliniques complexes d’ophtalmologie, Daniel Milad du service d’ophtalmologie à l’Université de Montréal au Québec, Canada, a mené avec son équipe de recherche une analyse comparative pour GPT-4 sur 422 défis cliniques d’ophtalmologie du «Journal of the American Medical Association» en demandant au modèle de déterminer le diagnostic (question ouverte) et d’identifier l’étape suivante (question à choix multiples). À ces fins, l’équipe a généré des réponses à l’aide de deux stratégies d’incitation à zéro coup, y compris planifier et résoudre+ (PS+) à zéro coup, afin d’améliorer le raisonnement du modèle. Le modèle le plus performant a été comparé aux évaluateurs humains. E En utilisant l’incitation PS+, GPT-4 a atteint des précisions moyennes de 48,0% (IC 95% (43,1% à 52,9%)) et 63,0% (IC 95% (58,2% à 67,6%)) dans le diagnostic et l’étape suivante, respectivement. La précision de l’étape suivante n’était pas significativement différente selon la sous-spécialité (p = 0,44). Cependant, la précision du diagnostic en pathologie et dans les tumeurs était significativement plus élevée que dans l’uvéite (p = 0,027). Lorsque le diagnostic était exact, 75,2% (IC 95% (68,6% à 80,9%)) des étapes suivantes étaient correctes. Inversement, lorsque le diagnostic était incorrect, 50,2% (IC 95% (43,8% à 56,6%)) des étapes suivantes étaient correctes. L’étape suivante avait trois fois plus de chances d’être exacte lorsque le diagnostic initial était correct (p < 0,001). Aucune différence significative n’a été observée dans la précision du diagnostic et la prise de décision entre les ophtalmologistes certifiés et les GPT-4. Parmi les résidents, les seniors ont obtenu de meilleurs résultats que les GPT-4 en termes de précision diagnostique (p ≤ 0,001 et 0,049) et de précision de l’étape suivante (p = 0,002 et 0,020). L’amélioration des messages-guides améliore les performances du GPT-4 dans les situations cliniques complexes, bien qu’il ne surpasse pas les résidents en ophtalmologie dans ce contexte. Selon les auteurs dans l’édition de février du journal scientifique BRITISH JOURNAL OF OPHTHALMOLOGY, les modèles linguistiques spécialisés à grande échelle sont prometteurs pour l’aide future à la prise de décision et au diagnostic médical. (um)

Auteurs : Milad D, Antaki F, Milad J, Farah A, Khairy T, Mikhail D, Giguère CÉ, Touma S, Bernstein A, Szigiato AA, Nayman T, Mullie GA, Duval R. Correspondance : Dr Renaud Duval, Department of Ophthalmology, University of Montreal, Montreal, Canada. E-mail : renaud.duval@gmail.com Étude : Assessing the medical reasoning skills of GPT-4 in complex ophthalmology cases. Source: Br J Ophthalmol. 2024 Feb 16:bjo-2023-325053. doi: 10.1136/bjo-2023-325053. Epub ahead of print. PMID: 38365427. Web : https://bjo.bmj.com/content/early/2024/02/16/bjo-2023-325053