Disintegration of digital brain on blue background (3D Illustration).

Les modèles d’IA plus anciens montrent des signes de déclin cognitif, montre l’étude

Par Anissa Chauvin

Les gens comptent de plus en plus sur intelligence artificielle (AI) pour les diagnostics médicaux en raison de la rapidité et de l’efficacité, ces outils peuvent repérer les anomalies et les signes d’avertissement dans les antécédents médicaux, les rayons X et d’autres ensembles de données avant de devenir évidents à l’œil nu. Mais une nouvelle étude publiée le 20 décembre 2024 dans le BMJ soulève des inquiétudes que les technologies de l’IA comme les modèles de grands langues (LLM) et les chatbots, comme les gens, montrent des signes de capacités cognitives détériorées avec l’âge.

« Ces résultats contestent l’hypothèse selon laquelle l’intelligence artificielle remplacera bientôt les médecins humains », ont écrit les auteurs de l’étude dans l’article, « comme la déficience cognitive évidente dans les chatbots de premier plan peut affecter leur fiabilité dans le diagnostic médical et saper la confiance des patients ».

Les scientifiques ont testé des chatbots axés sur le public accessibles au public, y compris le chatpt d’Openai, le sonnet d’Anthropic et les Gémeaux d’alphabet en utilisant le Évaluation cognitive de Montréal (MOCA) Test – Une série de tâches que les neurologues utilisent pour tester les capacités d’attention, de mémoire, de langue, de compétences spatiales et de fonction mentale exécutive.

Le MOCA est le plus souvent utilisé pour évaluer ou tester le début des troubles cognitifs dans des conditions comme la maladie ou la démence d’Alzheimer. Les sujets reçoivent des tâches telles que dessiner un temps spécifique sur une face d’horloge, à partir de 100 et en soustrayant à plusieurs reprises sept, en se souvenant autant de mots que possible dans une liste parlée, etc. Chez l’homme, 26 sur 30 est considéré comme un score de passage (c’est-à-dire que le sujet n’a aucune déficience cognitive.

Alors que certains aspects des tests comme la dénomination, l’attention, le langage et l’abstraction étaient apparemment faciles pour la plupart des LLM utilisés, ils ont tous mal performé les compétences visuelles / spatiales et les tâches exécutives, plusieurs faisant pire que d’autres dans des domaines comme un rappel retardé.

Surtout, alors que la version la plus récente de Chatgpt (version 4) a obtenu le plus haut (26 sur 30), l’ancien Gemini 1.0 LLM n’a obtenu que 16 ans – conduisant à la conclusion que les LLM plus anciens montrent des signes de déclin cognitif.

Les auteurs de l’étude notent que leurs résultats ne sont que l’observation – les différences critiques entre les façons dont l’IA et le travail mental humain signifient que l’expérience ne peut pas constituer une comparaison directe. Mais ils affirment que cela pourrait indiquer ce qu’ils appellent un « domaine de faiblesse important » qui pourrait mettre les freins sur le déploiement de l’IA en médecine clinique. Plus précisément, ils ont plaidé contre l’utilisation de l’IA dans les tâches nécessitant une abstraction visuelle et une fonction exécutive.

Il augmente également la notion quelque peu amusante de neurologues humains qui prennent un tout nouveau marché – des Is eux-mêmes qui présentent des signes de déficience cognitive.

Anissa Chauvin