Le système d'IA a obtenu des résultats supérieurs à ceux des jeunes médecins généralistes et des ophtalmologistes en formation.

Tl;dr

L’IA GPT-4 d’OpenAI a rendu des performances comparables à des experts en ophtalmologie.
Cet exploit a été mesuré à travers un test de 87 questions.
GPT-4 a surpassé d’autres modèles d’apprentissage de langages et des médecins juniors.
Des risques et des inquiétudes persistent malgré ces résultats prometteurs.

L’IA d’OpenAI rivalise avec les experts en ophtalmologie

Selon une étude récente de l’Université de Cambridge, le GPT-4, un modèle d’apprentissage du langage (LLM) conçu par OpenAI, a réussi à rivaliser avec des experts en ophtalmologie.

Une performance remarquable

Dans cette étude, des chercheurs ont mis à l’épreuve plusieurs LLM, dont le GPT-4 d’OpenAI. Mais également son prédécesseur, le GPT-3.5, ainsi que le PaLM 2 de Google et le LLaMA de Meta. Les parties prenantes dans ce test ont été soumises à un examen blanc composé de 87 questions à choix multiples, portant sur différents aspects de l’ophtalmologie, allant de la sensibilité à la lumière aux lésions.

GPT-4 en tête de peloton

OpenAI GPT-4 s’est distingué en réalisant un meilleur score que PaLM 2, GPT-3.5 et LLaMA, mais également que les juniors médecins. En effet, il est parvenu à répondre correctement à 60 des 87 questions posées. Néanmoins, avec une moyenne de 66,4 bonnes réponses, les cinq experts ophtalmologistes ont gardé l’avantage.

Des résultats prometteurs, mais avec des réserves

Certes, ces résultats traduisent l’“avancée de l’intelligence artificielle et son potentiel dans le champ médical”, mais, ils sont loin de clore le débat sur les limites et risques des LLM. Les chercheurs soulignent que leur étude avait un nombre limité de questions, dont certaines catégories étaient plus présentes que d’autres, ce qui aurait pu influencer les résultats.

De plus, malgré leurs performances, les LLM ont tendance à “halluciner”, c’est-à-dire à inventer des faits. Un défaut sans conséquence dans certaines situations, mais qui peut être grave s’il s’agit d’un diagnostic médical. Enfin, les systèmes LLM manquent de nuance, ce qui peut créer des opportunités d’inexactitudes.

GPT-4 se rapproche du niveau des experts dans ses évaluations ophtalmologiques

Tl;dr

L’IA d’OpenAI rivalise avec les experts en ophtalmologie

Une performance remarquable

GPT-4 en tête de peloton

Des résultats prometteurs, mais avec des réserves

Dans la même rubrique

Google interdit la promotion de sites et applications générant des deepfakes pornographiques

Pourquoi Bloodborne 2 surpasserait largement une suite à Elden Ring ?

Il est maintenant possible de contrôler qui peut citer vos publications sur Threads

Jack Dorsey sur X : “Je ne fais plus partie du conseil d’administration de Bluesky”