Tech

Le nouveau chatbot de Google a passé le test médical américain (mais seulement) : ScienceAlert

Cunégonde Lestrange juillet 13, 2023

0 7 2 minutes de lecture

Le nouveau chatbot de Google a passé le test médical américain (mais seulement) : ScienceAlert

Une étude évaluée par des pairs a rapporté mercredi que le chatbot médical alimenté par l’IA de Google a obtenu une note de passage à un examen de licence médicale américain difficile, mais ses réponses sont toujours en deçà de celles des médecins humains.

L’année dernière, la version de ChatGPT – dont le développeur OpenAI est soutenu par le rival de Google Microsoft – a déclenché une course parmi les géants de la technologie dans le domaine en plein essor de l’intelligence artificielle.

Alors que l’on a beaucoup parlé des futures possibilités – et dangers – de l’intelligence artificielle, la santé est un domaine où la technologie a déjà montré des progrès significatifs, avec des algorithmes capables de lire certains examens médicaux ainsi que les humains.

Google a dévoilé pour la première fois son outil d’IA pour répondre aux questions médicales, appelé Med-PaLMdans Étude prépublication en décembre. Contrairement à ChatGPT, il n’a pas été rendu public.

Le géant américain de la technologie affirme que Med-PaLM est le premier grand modèle de langage, une technologie d’intelligence artificielle entraînée sur d’énormes quantités de texte produit par l’homme, à réussir l’USMLE (US Medical Licensing Examination).

La note de passage à l’examen, qui est passé par des étudiants en médecine et des médecins formés aux États-Unis, est d’environ 60 %.

En février, une étude a déclaré que ChatGPT avait des résultats réussis ou presque réussis.

Dans une étude évaluée par des pairs Publié dans la revue nature Mercredi, les chercheurs de Google ont déclaré que Med-PaLM avait obtenu un score de 67,6 % sur les questions à choix multiples de style USMLE.

READ Microsoft Teams utilise l'IA pour éviter les interruptions gênantes des appels vidéo

« Med-PaLM fonctionne de manière encourageante, mais il est toujours inférieur aux médecins », indique l’étude.

Pour identifier et réduire les « hallucinations » – le nom utilisé lorsque les modèles d’intelligence artificielle donnent de fausses informations – Google a déclaré avoir développé un nouveau critère d’évaluation.

Karan Singhal, chercheur chez Google et auteur principal de la nouvelle étude, a déclaré à l’AFP que l’équipe avait utilisé le benchmark pour tester une nouvelle version de son modèle avec des résultats « très excitants ».

Med-PaLM 2 a atteint 86,5% à l’examen USMLE, surpassant la version précédente d’environ 20%, selon une étude pré-imprimée publiée en mai qui n’a pas été évaluée par des pairs.

L’éléphant dans la pièce

« Il y a un éléphant dans la pièce » des chatbots médicaux alimentés par l’IA, a déclaré James Davenport, informaticien à l’Université de Bath, au Royaume-Uni, qui n’a pas participé à la recherche.

Il a dit qu’il y a une grande différence entre répondre à « des questions médicales et à la médecine réelle », ce qui implique de diagnostiquer et de traiter de vrais problèmes de santé.

Les hallucinations seront probablement toujours un problème pour ces grands modèles de langage, a déclaré Anthony Cohn, expert en intelligence artificielle à l’Université de Leeds, au Royaume-Uni, en raison de leur nature statistique.

Par conséquent, « ces modèles doivent toujours être considérés comme des aides, et non comme des décideurs finaux », a déclaré Cohn.

À l’avenir, a déclaré Singhal, Med-PaLM pourrait être utilisé pour aider les cliniciens à proposer des alternatives qui n’auraient peut-être pas été envisagées autrement.

Le Wall Street Journal a rapporté plus tôt cette semaine que Med-PaLM 2 était en test dans le prestigieux hôpital de recherche Mayo Clinic aux États-Unis depuis avril.

READ Avertissement par SMS frauduleux

Le Sénégal a déclaré qu’il ne pouvait pas parler de partenariats spécifiques.

Mais il a souligné qu’aucun test ne serait « clinique, orienté vers le patient ou autrement potentiellement dangereux pour les patients ».

Ce serait plutôt pour « plus de tâches administratives qui peuvent être automatisées relativement facilement et avec peu de risques », a-t-il ajouté.