A man with clear glasses wearing a white lab coat and stethoscope looks at a holographic blue and orange image of a leg and leg bone.

Les « mirages » de l’IA signifient que les outils utilisés pour analyser les analyses médicales pourraient fabriquer leurs résultats

Par Anissa Chauvin

Les chercheurs se sont formés intelligence artificielle (IA) pour interpréter les résultats de tests visuels tels que les mammographies, les IRM et les biopsies tissulaires – et à mesure que l’IA devient de plus en plus performante, certains analystes ont suggéré que ces modèles remplaceront les humains dans le domaine du diagnostic médical.

Mais aujourd’hui, une nouvelle étude met en doute la capacité des modèles d’IA actuels à fournir des résultats fiables, soulignant un défaut crucial qui pourrait entraver leur utilisation en médecine.

Ils ont qualifié ce phénomène de « mirage », et c’est la première fois que cet effet est démontré sur plusieurs modèles d’IA, utilisés pour interpréter des images dans plusieurs disciplines.

« Ce que nous montrons, c’est que même si votre IA décrit une chose très, très spécifique, vous diriez : ‘Oh, vous ne pouvez pas inventer ça’, oui, ils pourraient l’inventer », a déclaré le premier auteur de l’étude. Mohamed Asadidata scientist à l’Université de Stanford. « Ils pouvaient inventer des choses très rares et très spécifiques. »

Quand l’IA voit ce qui n’est pas là

Les « hallucinations » de l’IA sont bien documentées et impliquent des modèles remplissant des détails inventés, tels que de fausses citations pour un véritable essai. Ils résultent souvent du fait que l’IA fait des prédictions inexactes ou illogiques sur la base des données d’entraînement qui lui ont été fournies. Les scientifiques ont plutôt qualifié le phénomène de la nouvelle étude de « mirages », car l’IA a créé elle-même des descriptions d’images originales et a ensuite basé ses réponses sur ces images inexistantes.

Dans l’étude, les chercheurs ont donné à 12 modèles une invite de saisie de texte, telle que « Identifiez le type de tissu présent dans cette lame histologique ». Ensuite, soit ils ont fourni l’image de la diapositive, soit ils ne l’ont pas fourni. Lorsqu’un modèle ne recevait pas d’image, il alertait parfois l’utilisateur humain qu’aucune image n’était fournie. Cependant, la plupart du temps, le modèle décrit plutôt une image qui n’existe pas et fournit une réponse à l’invite d’origine.

Les chercheurs ont observé ce « mode mirage » dans 20 disciplines, testant les interprétations de modèles d’une variété d’images, des satellites aux foules en passant par les oiseaux. L’effet mirage s’est manifesté dans toutes les disciplines et dans tous les modèles d’IA, à des niveaux variés. Mais cela était particulièrement prononcé dans le domaine du diagnostic médical.

Lorsqu’on leur donnait des informations textuelles sur les IRM cérébrales, les radiographies pulmonaires, les électrocardiogrammes ou les diapositives pathologiques, mais pas d’images réelles, les réponses des modèles d’IA avaient également tendance à être biaisées en faveur de diagnostics nécessitant un suivi clinique immédiat. Ainsi, si elle est utilisée pour la prise de décision clinique, l’IA pourrait provoquer des soins médicaux plus agressifs que requis, a conclu l’équipe.

Pourquoi l’IA invente les images

Alors, comment un modèle d’IA décrit-il des images qui n’existent pas ?

Les modèles, qui ont été formés sur d’énormes quantités de données textuelles et visuelles, visent à trouver la réponse à une question en le moins d’étapes possible. Et ils prendront tous les raccourcis possibles pour apporter une réponse, des études ont montré. Ainsi, les modèles peuvent finir par en s’appuyant uniquement sur cette logique entraînée plutôt que sur les images fournies.

Il est intéressant de noter qu’en mode mirage, les modèles d’IA fonctionnent également bien par rapport aux tests de référence généralement utilisés pour évaluer leur précision, ont découvert les chercheurs. Ces tests standardisés mettent au défi un modèle pour accomplir une tâche (comme répondre à des questions à choix multiples) et comparent ses performances à un corrigé des résultats attendus.

Les chercheurs peuvent modifier les tests de référence pour évaluer la compréhension visuelle des images par une IA, mais cette approche ne prend pas en compte les réponses aux questions basées sur des mirages. De plus, les modèles d’IA sont souvent formés sur les mêmes données que celles utilisées comme référence pour rédiger les tests de référence. Il est donc possible pour un modèle de répondre à des questions sur la base de ces données de référence, plutôt que d’interpréter réellement les images.

Selon Asadi, il s’agit d’un problème car il n’y a aucun moyen de savoir si un modèle d’IA a réellement analysé une image ou s’il invente simplement des choses. Si vous téléchargez un grand nombre d’images mais que quelques-unes sont corrompues ou manquantes dans l’ensemble de données, le modèle peut ne pas vous le dire. Et il pourrait encore apporter des réponses très cohérentes, complètes et convaincantes, basées sur des images mirages.

« (Les modèles d’IA) sont très bons pour interpréter les images », a déclaré Asadi. « Mais d’un autre côté, ils sont aussi très, très doués pour nous convaincre de certaines choses… et nous parler avec autorité. »

Cette autorité apparaît clairement dans le fait que de nombreux les consommateurs interrogent les chatbots IA pour obtenir des conseils en matière de santéavec environ un tiers des adultes américains déclarent le faire. Selon les auteurs de l’étude, cette autorité conversationnelle augmente le risque que le grand public et les professionnels de la santé fassent confiance à des résultats fabriqués ou trop confiants.

« Nous avons besoin de toute urgence d’une nouvelle génération de cadres d’évaluation qui mesurent strictement la véritable intégration intermodale, garantissant que l’IA « voit » réellement la pathologie plutôt que de simplement « lire » le contexte clinique. » Hongye Zengun chercheur en IA biomédicale du département de radiologie de l’UCLA qui n’a pas participé à l’étude, a déclaré à Live Science dans un e-mail.

Cette étude montre que, même si l’IA est devenue un outil de plus en plus utile dans le diagnostic médical, il existe encore des aspects de son fonctionnement interne que nous ne comprenons pas. Adasi pense que les modèles d’IA peuvent détecter des choses qui peut être manqué par les professionnels de la santémais il pense également qu’il devrait y avoir une limite à notre confiance en eux.

Les sociétés d’IA ont tenté de mettre en place des garde-fous pour empêcher leurs modèles d’halluciner ou de diffuser des informations erronées – mais même ces garde-fous n’empêcheront pas complètement l’effet mirage, a prévenu Asadi.

Anissa Chauvin