logo Begeek

tech · high-tech

GPT-4 se rapproche du niveau des experts dans ses évaluations ophtalmologiques

GPT-4 se rapproche du niveau des experts dans ses évaluations ophtalmologiques
Publié le 21 avr. 2024 à 16:00, mis à jour le 21 avr. 2024 à 14:01

Le système d'IA a obtenu des résultats supérieurs à ceux des jeunes médecins généralistes et des ophtalmologistes en formation.

Tl;dr

  • L’IA GPT-4 d’OpenAI a rendu des performances comparables à des experts en ophtalmologie.
  • Cet exploit a été mesuré à travers un test de 87 questions.
  • GPT-4 a surpassé d’autres modèles d’apprentissage de langages et des médecins juniors.
  • Des risques et des inquiétudes persistent malgré ces résultats prometteurs.

L’IA d’OpenAI rivalise avec les experts en ophtalmologie

Selon une étude récente de l’Université de Cambridge, le GPT-4, un modèle d’apprentissage du langage (LLM) conçu par OpenAI, a réussi à rivaliser avec des experts en ophtalmologie.

Une performance remarquable

Dans cette étude, des chercheurs ont mis à l’épreuve plusieurs LLM, dont le GPT-4 d’OpenAI. Mais également son prédécesseur, le GPT-3.5, ainsi que le PaLM 2 de Google et le LLaMA de Meta. Les parties prenantes dans ce test ont été soumises à un examen blanc composé de 87 questions à choix multiples, portant sur différents aspects de l’ophtalmologie, allant de la sensibilité à la lumière aux lésions.

GPT-4 en tête de peloton

OpenAI GPT-4 s’est distingué en réalisant un meilleur score que PaLM 2, GPT-3.5 et LLaMA, mais également que les juniors médecins. En effet, il est parvenu à répondre correctement à 60 des 87 questions posées. Néanmoins, avec une moyenne de 66,4 bonnes réponses, les cinq experts ophtalmologistes ont gardé l’avantage.

Des résultats prometteurs, mais avec des réserves

Certes, ces résultats traduisent l’“avancée de l’intelligence artificielle et son potentiel dans le champ médical”, mais, ils sont loin de clore le débat sur les limites et risques des LLM. Les chercheurs soulignent que leur étude avait un nombre limité de questions, dont certaines catégories étaient plus présentes que d’autres, ce qui aurait pu influencer les résultats.

De plus, malgré leurs performances, les LLM ont tendance à “halluciner”, c’est-à-dire à inventer des faits. Un défaut sans conséquence dans certaines situations, mais qui peut être grave s’il s’agit d’un diagnostic médical. Enfin, les systèmes LLM manquent de nuance, ce qui peut créer des opportunités d’inexactitudes.

Publicité
Partager
  • partager sur Facebook logo
  • partager sur X logo
  • partager par email logo

À lire aussi sur Begeek: