« Ce n'est pas ainsi qu'on construit un esprit numérique » : comment les échecs de raisonnement empêchent les modèles d'IA d'atteindre une intelligence de niveau humain

Les contraintes architecturales dans les plus populaires d’aujourd’hui intelligence artificielle Les outils (IA) peuvent limiter leur capacité à devenir plus intelligents, suggèrent de nouvelles recherches.

Une étude publiée le 5 février sur la prépublication arXiv Server soutient que les grands modèles de langage (LLM) modernes sont intrinsèquement sujets à des pannes dans leur logique de résolution de problèmes, connues sous le nom d’« échecs de raisonnement ».

Les échecs de raisonnement se produisent lorsqu’un LLM perd la trace des informations clés nécessaires pour résoudre une tâche de manière fiable, ce qui entraîne des réponses incorrectes à des problèmes apparemment simples. L’article, qui a été présenté comme une revue des recherches existantes, s’est spécifiquement penché sur les modèles de transformateur, un type d’architecture de réseau neuronal qui sous-tend les chatbots d’IA populaires, notamment ChatGPT, Claude et Google Gemini.

Basé sur les performances des LLM lors d’évaluations telles que Le dernier examen de l’humanitécertains scientifiques affirment que l’architecture sous-jacente du réseau neuronal pourrait un jour conduire à un modèle capable d’atteindre une cognition de niveau humain. Bien que l’architecture du transformateur rende les LLM extrêmement performants dans des tâches telles que la génération de langages, les chercheurs affirment qu’elle inhibe également le type de processus logiques fiables nécessaires pour parvenir à un véritable raisonnement au niveau humain.

« Les LLM ont fait preuve de capacités de raisonnement remarquables, obtenant des résultats impressionnants dans un large éventail de tâches », ont déclaré les chercheurs dans l’étude. « Malgré ces progrès, d’importants échecs de raisonnement persistent, se produisant même dans des scénarios apparemment simples… Cet échec est attribué à une incapacité de planification holistique et de réflexion approfondie. »

Limites des LLM

Les LLM sont formés sur d’énormes quantités de données textuelles et génèrent des réponses aux invites des utilisateurs en prédisant, mot par mot, une réponse plausible. Pour ce faire, ils rassemblent des unités de texte, appelées « jetons », basées sur des modèles statistiques tirés de leurs données d’entraînement.

Les transformateurs utilisent également un mécanisme appelé « auto-attention » pour suivre les relations entre les mots et les concepts sur de longues chaînes de texte. L’attention personnelle, combinée à leurs énormes bases de données de formation, est ce qui rend les chatbots modernes si efficaces pour générer des réponses convaincantes aux invites des utilisateurs.

Cependant, les LLM ne font pas de véritable « réflexion » au sens conventionnel du terme. Au lieu de cela, leurs réponses sont déterminées par un algorithme. Pour les tâches longues, en particulier celles qui nécessitent une véritable résolution de problèmes en plusieurs étapes, les transformateurs peuvent perdre la trace des informations clés et adopter par défaut les modèles appris à partir de leurs données de formation. Cela entraîne des échecs de raisonnement.

Il ne s’agit pas d’un véritable raisonnement au sens humain du terme – il s’agit simplement d’une prédiction symbolique déguisée en chaîne de pensée.
Federico Nanni, chercheur principal en données à l’Institut Alan Turing

« Cette faiblesse fondamentale s’étend au-delà des tâches de base, jusqu’à compositions de problèmes mathématiquesla vérification des affirmations multi-faits et d’autres tâches intrinsèquement compositionnelles », ont déclaré les chercheurs dans l’étude.

Les échecs de raisonnement sont également la raison pour laquelle les LLM encerclent souvent la même réponse à une requête utilisateur même après s’être fait dire qu’elle est incorrecte, ou produisent une réponse différente à la même question lorsqu’elle est formulée légèrement différemment, même lorsqu’il est invité à expliquer son raisonnement étape par étape.

Federico Nannichercheur principal en données à l’Institut Alan Turing du Royaume-Uni, affirme que ce que les LLM présentent généralement comme raisonnement n’est principalement qu’une façade.

« Les gens ont compris que si vous dites à un LLM, au lieu de répondre directement, de » réfléchir étape par étape « et d’écrire d’abord un processus de raisonnement, il obtient souvent la bonne réponse », a déclaré Nanni à Live Science. « Mais c’est une astuce. Ce n’est pas un véritable raisonnement au sens humain du terme, c’est juste une prédiction symbolique déguisée en chaîne de pensée », a-t-il déclaré. « Quand nous disons ‘raison’ à ces modèles, nous voulons dire en réalité qu’ils écrivent un processus de raisonnement – quelque chose qui ressemble à une chaîne de raisonnement plausible. »

Lacunes dans les références existantes en matière d’IA

Les méthodes actuelles d’évaluation des performances LLM sont insuffisantes dans trois domaines clés, ont découvert les chercheurs. Premièrement, les résultats peuvent être affectés par la reformulation d’une invite. Deuxièmement, les indices de référence se dégradent et deviennent contaminés à mesure qu’ils sont utilisés. Et enfin, ils évaluent uniquement le résultat, plutôt que le processus de raisonnement utilisé par un modèle pour parvenir à sa conclusion.

Cela signifie que les références actuelles peuvent surestimer considérablement la capacité des LLM et sous-estimer la fréquence à laquelle ils échouent dans une utilisation réelle.

« Notre position n’est pas que les critères de référence sont défectueux, mais qu’ils doivent évoluer », co-auteur de l’étude Chanson de Peiyangétudiant en informatique et robotique à Caltech, a déclaré à Live Science par e-mail. De même, les benchmarks ont tendance à s’infiltrer dans les données de formation LLM, a déclaré Nanni, ce qui signifie que les LLM ultérieurs découvrent comment les tromper.

« De plus, maintenant que les modèles sont déployés en production, l’utilisation elle-même devient une sorte de référence », a déclaré Nanni. « Vous placez le système devant les utilisateurs et voyez ce qui ne va pas – c’est le nouveau test. Alors oui, nous avons besoin de meilleurs critères de référence et nous devons moins compter sur l’IA pour vérifier l’IA. Mais c’est très difficile en pratique, car ces outils sont désormais intégrés à notre façon de travailler, et il est extrêmement pratique de simplement les utiliser. »

Une nouvelle architecture pour AGI ?

Contrairement aux autres recherches récentesla nouvelle étude ne prétend pas que les approches de l’IA basées sur les réseaux neuronaux constituent une impasse dans la quête de l’atteinte des objectifs. intelligence artificielle générale (AGI). Les chercheurs le comparent plutôt aux débuts de l’informatique, notant que comprendre pourquoi les LLM échouent est essentiel pour les améliorer.

Cependant, ils soutiennent qu’il est peu probable que le simple fait de former des modèles sur davantage de données ou de les augmenter à grande échelle résoudra le problème à lui seul. Cela signifie que le développement de l’AGI peut nécessiter un approche fondamentalement différente de la façon dont les modèles sont construits.

« Les réseaux de neurones, et les LLM en particulier, font clairement partie du paysage de l’AGI. Leurs progrès ont été extraordinaires », a déclaré Song. « Cependant, notre enquête suggère qu’il est peu probable que la mise à l’échelle à elle seule résolve tous les échecs du raisonnement… (ce qui signifie) qu’atteindre un raisonnement au niveau humain peut nécessiter des innovations architecturales, des modèles mondiaux plus solides, une formation améliorée en matière de robustesse et une intégration plus profonde avec un raisonnement structuré et une interaction incarnée. »

Nanni était d’accord. « D’un point de vue philosophique, je dirais que nous avons essentiellement trouvé les limites des transformateurs. Ce n’est pas grâce à elles que l’on construit un esprit numérique », a-t-il déclaré. « Ils modélisent extrêmement bien le texte, au point qu’il est presque impossible de dire si un passage a été écrit par un humain ou une machine. Mais c’est ce qu’ils sont : des modèles de langage… Il n’y a que jusqu’à un certain point que l’on puisse pousser cette architecture. »

Anissa Chauvin

Je m'appelle Anissa, rédactrice passionnée au cœur battant pour Reveil Citoyen Media. Mon parcours, de la plume lycéenne aux salles de rédaction, est guidé par une curiosité insatiable et le désir ardent de révéler les vérités cachées. Chaque article que je rédige est une invitation à réfléchir, à questionner et, surtout, à agir pour un monde meilleur.

« Ce n’est pas ainsi qu’on construit un esprit numérique » : comment les échecs de raisonnement empêchent les modèles d’IA d’atteindre une intelligence de niveau humain

Limites des LLM

Lacunes dans les références existantes en matière d’IA

Une nouvelle architecture pour AGI ?