Confused AI

Les chatbots AI simplifient les études scientifiques et brillent sur les détails critiques – les nouveaux modèles sont particulièrement coupables

Par Anissa Chauvin

Les modèles de grands langues (LLM) deviennent moins « intelligents » dans chaque nouvelle version car ils simplifient à l’excès et, dans certains cas, dénaturent d’importants résultats scientifiques et médicaux, a révélé une nouvelle étude.

Les scientifiques ont découvert que les versions de Chatgpt, Llama et Deepseek étaient cinq fois plus susceptibles de simplifier les résultats scientifiques que les experts humains dans une analyse de 4 900 résumés des articles de recherche.

Lorsqu’on leur a donné une invite à la précision, les chatbots étaient deux fois plus susceptibles de gérer les résultats généralisés que lorsqu’ils ont été invités à un résumé simple. Les tests ont également révélé une augmentation des généralisations sur les versions de chatbot plus récentes par rapport aux générations précédentes.

Les chercheurs ont publié leurs résultats dans une nouvelle étude le 30 avril dans la revue Société royale des sciences ouvertes.

« Je pense que l’un des plus grands défis est que la généralisation peut sembler bénin, voire utile, jusqu’à ce que vous vous rendions compte que cela a changé la signification de la recherche originale », auteur de l’étude Uwe Petersun chercheur postdoctoral à l’Université de Bonn en Allemagne, a écrit dans un e-mail à Live Science. « Ce que nous ajoutons ici est une méthode systématique pour détecter lorsque les modèles se généralisent au-delà de ce qui est justifié dans le texte d’origine. »

C’est comme un photocopieur avec une lentille cassée qui rend les copies suivantes plus grandes et plus audacieuses que l’original. LLMS filtre les informations via une série de couches de calcul. En cours de route, certaines informations peuvent être perdues ou changer de sens de manière subtile. Cela est particulièrement vrai avec les études scientifiques, car les scientifiques doivent fréquemment inclure les qualifications, le contexte et les limites de leurs résultats de recherche. Fournir un résumé simple mais précis des résultats devient assez difficile.

« Les LLM antérieurs étaient plus susceptibles d’éviter de répondre à des questions difficiles, tandis que des modèles plus récents, plus grands et plus instructibles, au lieu de refuser de répondre, ont souvent produit des réponses à tort et erronées », ont écrit les chercheurs.

Dans un exemple de l’étude, Deepseek a produit une recommandation médicale en un résumé en modifiant la phrase « était sûr et pouvait être effectuée avec succès » vers « est une option de traitement sûre et efficace ».

Un autre test de l’étude a montré que LLAMA a élargi la portée de l’efficacité d’un médicament traitant le diabète de type 2 chez les jeunes en éliminant les informations sur le dosage, la fréquence et les effets du médicament.

Si elle est publiée, ce résumé généré par le chatbot pourrait amener les professionnels de la santé à prescrire des médicaments en dehors de leurs paramètres efficaces.

Options de traitement dangereuses

Dans la nouvelle étude, les chercheurs ont travaillé pour répondre à trois questions sur 10 des LLM les plus populaires (quatre versions de Chatgpt, trois versions de Claude, deux versions de Llama et une de Deepseek).

Ils voulaient voir si, lorsqu’on lui a présenté un résumé humain d’un article de revue académique et a incité à le résumer, le LLM serait sur générifier le résumé et, dans le cas, si le demander une réponse plus précise donnerait un meilleur résultat. L’équipe visait également à constater si les LLMS auraient sur-généraliseraient plus que les humains.

Les résultats ont révélé que les LLM – à l’exception de Claude, qui ont bien fonctionné sur tous les critères de test – qui ont été provoqués par la précision étaient deux fois plus susceptibles de produire des résultats généralisés. Les résumés LLM étaient près de cinq fois plus susceptibles que les résumés générés par l’homme de rendre des conclusions généralisées.

Les chercheurs ont également noté que la transition des LLMS en transition des données en informations génériques était les généralisations excessives les plus courantes et les plus susceptibles de créer des options de traitement dangereuses.

Ces transitions et les généralisations excessives ont conduit à des biais, selon les experts de l’intersection de l’IA et des soins de santé.

« Cette étude souligne que les biais peuvent également prendre des formes plus subtiles – comme l’inflation silencieuse de la portée d’une affirmation »,  » Max Rollwagevice-président de l’IA et de la recherche chez Limbic, une entreprise de technologie clinique de santé mentale, a déclaré à Live Science dans un e-mail. « Dans des domaines comme la médecine, le résumé LLM est déjà une partie courante des flux de travail.

De telles découvertes devraient inciter les développeurs à créer des garde-corps de flux de travail qui identifient les simplifications à l’extérieur et les omissions d’informations critiques avant de mettre les résultats entre les mains de groupes publics ou professionnels, a déclaré Rollwage.

Bien que complet, l’étude avait des limites; Les études futures bénéficieraient de l’extension des tests à d’autres tâches scientifiques et textes non anglophones, ainsi que des tests quels types de revendications scientifiques sont davantage soumises à une génération sur la génération, a déclaré Patricia Thaineco-fondateur et PDG de Private AI – une entreprise de développement de l’IA.

Rollwage a également noté que « une analyse d’ingénierie rapide plus profonde pourrait avoir amélioré ou clarifié les résultats », tandis que Peters voit des risques plus importants à l’horizon à mesure que notre dépendance à l’égard des chatbots augmente.

« Des outils comme Chatgpt, Claude et Deepseek font de plus en plus partie de la façon dont les gens comprennent les conclusions scientifiques », a-t-il écrit. « Alors que leur utilisation continue de croître, cela représente un réel risque d’interprétation erronée à grande échelle de la science à un moment où la confiance du public et l’alphabétisation scientifique sont déjà sous pression. »

Pour d’autres experts dans le domaine, le défi auquel nous sommes confrontés réside dans l’ignorance des connaissances et des protections spécialisées.

« Les modèles sont formés sur le journalisme scientifique simplifié plutôt que, ou en plus des sources primaires, héritant de ces simplifications excessives », a écrit Thaine à Live Science.

« Mais, surtout, nous appliquons des modèles à usage général à des domaines spécialisés sans surveillance d’experts appropriée, qui est une mauvaise utilisation fondamentale de la technologie qui nécessite souvent une formation plus spécifique à la tâche. »

Clause de non-responsabilité

En décembre 2024, Future Publishing a conclu un accord avec OpenAI dans lequel la société d’IA apporterait du contenu des plus de 200 marques de médias de l’avenir aux utilisateurs d’Openai. Vous pouvez en savoir plus sur le partenariat ici.

Anissa Chauvin