Skip to main content

Fachverlag und Nachrichtenagentur

GPT-4 erreicht menschliche Werte bei der Beantwortung ophthalmologischer Ausbildungstests

DEEP LEARNING London – Was leistet das Large Language Model (LLM) GPT-4 bei der Beantwortung ophthalmologischer Wissensfragen im Rahmen der medizinischen Ausbildung? Dieser Frage gingen Fares Antaki vom Moorfields Eye Hospital NHS Foundation Trust in London, Grossbritannien, und andere Autoren nach. Generative Pre-trained Transformer 4 (GPT-4) wurde anhand von zwei Multiple-Choice-Tests mit jeweils 260 Fragen aus dem Basic and Clinical Science Course™ Self-Assessment Program der American Academy of Ophthalmology und den Fragedatenbanken von OphthoQuestions™ getestet. Verglichen wurde die Fehlerfreiheit verschiedener GPT-4-Modelle bei unterschiedlichen «Temperaturen». Die Temperatur bestimmt die «Kreativität» der ChatGPT-Ausgabe. Je höher die Temperatur, desto zufälliger und «kreativer» ist die Ausgabe. Für einen Teil der Fragen wurden die Antworten des Programms ausgewertet und das leistungsfähigste GPT-4-Modell mit GPT-3.5 und der bisherigen menschlichen Leistung verglichen. GPT-4-0.3 (GPT-4 mit einer Temperatur von 0,3) erreichte die höchste Richtigkeit unter den GPT-4-Modellen, mit 75,8% für den BCSC-Fragensatz und 70,0% für den OphthoQuestions-Fragensatz. Die kombinierte Richtigkeit betrug 72,9% und die Rohdaten zeigten einer Verbesserung um 18,3% im Vergleich zu GPT-3,5 (p < 0,001). Menschliche Prüfer bevorzugten Antworten von Modellen mit einer Temperatur über 0 (kreativer). Der Prüfungsabschnitt, der Schwierigkeitsgrad der Frage und das kognitive Niveau waren alle prädiktiv für die Genauigkeit der GPT-4-0.3-Antworten. Die Leistung von GPT-4-0.3 war der menschlichen Leistung im BCSC (75,8% vs. 73,3%) und in OphthoQuestions (70,0% vs. 63,0%) zahlenmässig überlegen, aber der Unterschied war statistisch nicht signifikant (p = 0,55 bzw. p = 0,09). In der elektronischen Vorabpublikation im November 2023 beim BRITISH JOURNAL OF OPHTHALMOLOGY fassen die Autoren zusammen, dass GPT-4 als nicht auf spezifische ophthalmologische Daten trainiertes LLM in simulierten ophthalmologischen Ausbildungstests signifikant besser abschnitt als sein Vorgänger. Die Leistung war bemerkenswerterweise tendenziell besser als frühere menschliche Ergebnisse, dieser Unterschied war in dieser Studie aber statistisch nicht signifikant. (bs)

Autoren: Antaki F, Milad D, Chia MA, Giguère CÉ, Touma S, El-Khoury J, Keane PA, Duval R. Korrespondenz: Dr Renaud Duval, Ophthalmology, University of Montreal, Montreal, Canada. Mr Pearse A Keane, Institute of Ophthalmology, UCL, London, UK. E-Mail: renaud.duval@gmail.com, p.keane@ucl.ac.uk Studie: Capabilities of GPT-4 in ophthalmology: an analysis of model entropy and progress towards human-level medical question answering. Quelle: Br J Ophthalmol. 2023 Nov 3:bjo-2023-324438. doi: 10.1136/bjo-2023-324438. Epub ahead of print. PMID: 37923374. Web: https://bjo.bmj.com/content/early/2023/11/02/bjo-2023-324438.long