Emploi et précision des modèles de langage dérivés de l’intelligence artificielle pour la DMLA
MEDICAL RETINA / DEEP LEARNING Bern – La dégénérescence maculaire liée à l’âge (DMLA) touche des millions de personnes dans le monde, ce qui entraîne une augmentation des recherches en ligne sur les diagnostics supposés, source potentielle de désinformation et d’anxiété pour les patients et leurs parents. Cette étude explore l’efficacité des grands modèles de langage (large language models, LLM) dérivés de l’intelligence artificielle pour répondre aux questions des patients atteints de DMLA. Méthodes : ChatGPT 3.5 (2023), Bing AI (2023) et Google Bard (2023) ont été adoptés comme LLM. Les questions des patients ont été subdivisées en deux catégories, (a) conseils médicaux généraux et (b) conseils avant et après l’injection intravitréenne et classées comme (1) précises et suffisantes (2) partiellement précises mais suffisantes et (3) inexactes et insuffisantes. Lorenzo Ferro Desideri du service ophtalmologique, Inselspital, à l’hôpital universitaire de Berne, a realisé avec son équipe un test non paramétrique pour comparer les moyennes entre les 3 scores LLM ainsi qu’une analyse de variance et des tests de fiabilité pour les 3 groupes. Dans la catégorie a) des questions, le score moyen était de 1,20 (± 0,41) avec ChatGPT 3.5, 1,60 (± 0,63) avec Bing AI et 1,60 (± 0,73) avec Google Bard, ne montrant aucune différence significative entre les 3 groupes (p = 0,129). Le score moyen dans la catégorie b était de 1,07 (± 0,27) avec ChatGPT 3.5, de 1,69 (± 0,63) avec Bing AI et de 1,38 (± 0,63) avec Google Bard, ce qui montre une différence significative entre les trois groupes (p = 0,0042). Les statistiques de fiabilité ont montré un α de Chronbach de 0,237 (intervalle 0,448, 0,096 - 0,544). Le groupe de recherche constatent dans l’édition de novembre 2023, du journal scientifique INTERNATIONAL JOURNAL OF RETINA AND VITREOUS, que la version 3.5 de ChatGPT offre les réponses les plus précises et les plus satisfaisantes, en particulier pour les questions d’ordre technique. Bien que les LLM soient prometteurs dans la fourniture d’informations précises sur la DMLA, d’autres améliorations sont nécessaires, en particulier pour les questions plus techniques. (um)
Auteurs : Ferro Desideri L, Roth J, Zinkernagel M, Anguita R. Correspondance : Lorenzo Ferro Desideri, Department of Ophthalmology, Inselspital, University Hospital of Bern, Bern, Switzerland. E-mail : lorenzoferrodes@gmail.com Étude: Application and accuracy of artificial intelligence-derived large language models in patients with age related macular degeneration. Source : Int J Retina Vitreous. 2023 Nov 18;9(1):71. doi: 10.1186/s40942-023-00511-7. PMID: 37980501; PMCID: PMC10657493. Web : https://journalretinavitreous.biomedcentral.com/articles/10.1186/s40942-023-00511-7