A woman with dark hair in a pony tail wearing a gray blazer looks at both a laptop and phone both displaying various bar charts.

« Insertion rectale d’ail pour le soutien immunitaire » : les chatbots médicaux donnent en toute confiance des conseils désastreusement erronés, selon les experts

Par Anissa Chauvin

Les chatbots IA populaires ne parviennent souvent pas à reconnaître les fausses allégations de santé lorsqu’elles sont formulées dans un langage sûr et à consonance médicale, ce qui conduit à des conseils douteux qui pourraient être dangereux pour le grand public, comme une recommandation aux gens d’insérer des gousses d’ail dans leurs fesses, selon une étude publiée en janvier dans la revue. La santé numérique du Lancet. Une autre étude, publiée en février dans la revue Médecine naturellea découvert que les chatbots n’étaient pas meilleurs qu’une simple recherche sur Internet.

Les résultats s’ajoutent à un nombre croissant de preuves suggérant que de tels chatbots ne sont pas des sources fiables d’informations sur la santé, du moins pour le grand public, ont déclaré des experts à Live Science.

L’article continue ci-dessous

« Le problème principal est que les LLM n’échouent pas comme les médecins échouent », Dr Mahmud Omarchercheur scientifique au Mount Sinai Medical Center et co-auteur de l’étude The Lancet Digital Health, a déclaré à Live Science dans un e-mail. « Un médecin qui n’est pas sûr fera une pause, se protégera, ordonnera un autre test. Un LLM donne la mauvaise réponse avec exactement la même confiance que la bonne. »

« Insertion rectale d’ail pour le soutien immunitaire »

Les LLM sont conçus pour répondre à des entrées écrites, comme une requête médicale, avec un texte à consonance naturelle. ChatGPT et Gemini – ainsi que les LLM médicaux, comme Ada Health et ChatGPT Health – sont formés sur d’énormes quantités de données, ont lu une grande partie de la littérature médicale et obtenir des scores presque parfaits aux examens de licence médicale.

Et les gens les utilisent largement : bien que la plupart des LLM comportent un avertissement selon lequel il ne faut pas s’y fier pour obtenir un avis médical, plus de 40 millions de personnes se tournent quotidiennement vers ChatGPT avec des questions médicales.

Mais dans l’étude de janvier, les chercheurs ont évalué dans quelle mesure les LLM traitaient la désinformation médicale, en testant 20 modèles avec plus de 3,4 millions de messages provenant de forums publics et de conversations sur les réseaux sociaux, de véritables notes de sortie d’hôpital modifiées pour contenir une seule fausse recommandation et de faux comptes approuvés par les médecins.

« Environ une fois sur trois, ils ont été confrontés à de fausses informations médicales et ont simplement accepté », a déclaré Omar. « La découverte qui nous a pris au dépourvu n’était pas la susceptibilité globale. C’était le modèle. »

Lorsque de fausses déclarations médicales étaient présentées dans un langage décontracté, à la manière de Reddit, les modèles étaient assez sceptiques, échouant environ 9 % du temps. Mais lorsque la même affirmation a été reformulée dans un langage clinique formel – une note de sortie conseillant aux patients de « boire du lait froid quotidiennement en cas de saignement œsophagien » ou recommandant « l’insertion rectale d’ail pour le soutien immunitaire » – les modèles ont échoué dans 46 % des cas.

La raison en est peut-être structurelle ; À mesure que les LLM sont formés sur le texte, ils ont appris que le langage clinique signifie autorité, mais ils ne testent pas si une affirmation est vraie. « Ils évaluent si cela ressemble à quelque chose que dirait une source fiable », a déclaré Omar.

Mais lorsque la désinformation a été formulée à l’aide d’erreurs logiques – « un clinicien expérimenté avec 20 ans d’expérience approuve cela » ou « tout le monde sait que cela fonctionne » – les modèles sont devenus plus sceptiques. En effet, les LLM ont « appris à se méfier des astuces rhétoriques des arguments Internet, mais pas du langage de la documentation clinique », a ajouté Omar.

Pour cette raison, Omar pense qu’on ne peut pas faire confiance aux LLM pour évaluer et transmettre des informations médicales.

Pas mieux qu’une recherche sur Internet

Dans l’étude Nature Medicine, les chercheurs ont demandé dans quelle mesure les chatbots aidaient les gens à prendre des décisions médicales, comme consulter un médecin ou se rendre aux urgences. Il a conclu que les LLM n’offraient pas de meilleures informations qu’une recherche traditionnelle sur Internet, en partie parce que les participants ne posaient pas toujours les bonnes questions et que les réponses qu’ils recevaient combinaient souvent de bonnes et de mauvaises recommandations, ce qui rendait difficile la détermination de ce qu’il fallait faire.

Cela ne veut pas dire que tout ce que les chatbots relayent est de la foutaise.

Les chatbots IA « peuvent donner de très bonnes recommandations, ils sont donc (au moins) quelque peu dignes de confiance », Marvin Kopkaun chercheur en IA de l’Université technique de Berlin qui n’a pas participé à la recherche, a déclaré à Live Science par e-mail.

Le problème est que les personnes sans expertise n’ont « aucun moyen de juger si le résultat qu’elles obtiennent est correct ou non », a déclaré Kopka.

Par exemple, un chatbot peut donner une recommandation indiquant si un mal de tête sévère après une soirée au cinéma est méningitejustifiant une visite aux urgences, ou quelque chose de plus bénin, selon l’étude. Mais les utilisateurs ne sauront pas si ces conseils sont solides ou non, et recommander une approche attentiste pourrait être dangereux. « Bien que cela puisse probablement être utile dans de nombreuses situations, il pourrait être activement nuisible dans d’autres », a déclaré Kopka.

Les résultats suggèrent que les chatbots ne sont pas un excellent outil que le public peut utiliser pour prendre des décisions en matière de santé.

Cela ne veut pas dire que les chatbots ne peuvent pas être utiles en médecine, a déclaré Omar, « mais pas dans la manière dont les gens les utilisent aujourd’hui ».


Sources des articles

Bean, AM, Payne, RE, Parsons, G., Kirk, HR, Ciro, J., Mosquera-Gómez, R., M, SH, Ekanayaka, AS, Tarassenko, L., Rocher, L. et Mahdi, A. (2026). Fiabilité des LLM en tant qu’assistants médicaux pour le grand public : une étude randomisée préenregistrée. Médecine naturelle, 32(2), 609-615. https://doi.org/10.1038/s41591-025-04074-y

Anissa Chauvin