Les modèles de raisonnement de l’intelligence artificielle (IA) ne sont pas aussi intelligents qu’ils l’ont fait. En fait, ils ne raisonnent pas du tout, selon les chercheurs d’Apple.
Les modèles de raisonnement, tels que Claude de Meta, O3 d’Openai et R1 de Deepseek, sont des modèles spécialisés de grands langues (LLM) qui consacrent plus de temps et de puissance de calcul à produire Réponses plus précises que leurs prédécesseurs traditionnels.
La montée de ces modèles a conduit à Réclamations renouvelées des grandes entreprises technologiques avec lesquelles ils pourraient être sur le point de développer des machines avec intelligence générale artificielle (AGI) – Systèmes qui surpassent les humains dans la plupart des tâches.
Pourtant, une nouvelle étude, publiée le 7 juin sur Site Web de recherche sur l’apprentissage automatique d’Applea répondu en décrochant un coup majeur contre les concurrents de l’entreprise. Les modèles de raisonnement ne manquent pas seulement de montrer un raisonnement généralisé, selon les scientifiques dans l’étude, leur précision s’effondre complètement lorsque les tâches deviennent trop complexes.
« Grâce à une expérimentation approfondie à travers divers puzzles, nous montrons que les LRM frontalières sont confrontées à un effondrement complet de précision au-delà de certaines complexités », ont écrit les chercheurs dans l’étude. « De plus, ils présentent une limite de mise à l’échelle contre-intuitive: leur effort de raisonnement augmente jusqu’à un point de complexité des problèmes, puis diminue malgré un budget de jeton adéquat. »
Les LLM se développent et apprennent en absorbant les données d’entraînement à partir de grandes quantités de production humaine. S’appuyer sur ces données permet aux modèles de générer des modèles probabilistes à partir de leurs réseaux de neurones en les alimentant en avant lorsqu’il est invite.
Les modèles de raisonnement sont une tentative de renforcement de la précision de l’IA en utilisant un processus connu sous le nom de «chaîne de réflexion». Il fonctionne en traçant des modèles à travers ces données en utilisant des réponses en plusieurs étapes, en imitant la façon dont les humains pourraient déployer la logique pour arriver à une conclusion.
Cela donne aux chatbots la possibilité de réévaluer leur raisonnementleur permettant de s’attaquer aux tâches plus complexes avec une plus grande précision. Pendant le processus de la chaîne de pensées, les modèles énoncent leur logique en langage clair pour chaque étape qu’ils font afin que leurs actions puissent être facilement observées.
Cependant, comme ce processus est enraciné dans des suppositions statistiques au lieu d’une réelle compréhension, les chatbots ont une tendance marquée à «halluciner» – jetant réponses erronées, couché Lorsque leurs données n’ont pas les réponses, et la distribution bizarre et occasionnellement nocif Conseils aux utilisateurs.
Un Rapport technique OpenAI a souligné que les modèles de raisonnement sont beaucoup plus susceptibles d’être déraillés par des hallucinations que leurs homologues génériques, le problème ne faisant qu’empirer à mesure que les modèles avancent.
Lorsqu’ils sont chargés de résumer des faits sur les personnes, les modèles O3 et O4-Mini de l’entreprise ont produit respectivement des informations erronées 33% et 48% du temps par rapport au taux d’hallucination de 16% de son modèle O1 antérieur. Les représentants d’OpenAI ont déclaré qu’ils ne savaient pas pourquoi cela se produit, concluant que « plus de recherches sont nécessaires pour comprendre la cause de ces résultats ».
« Nous pensons que le manque d’analyses systématiques étudiant ces questions est due aux limites des paradigmes d’évaluation actuels », ont écrit les auteurs dans la nouvelle étude d’Apple. « Les évaluations existantes se concentrent principalement sur des repères mathématiques et codants établis, qui, bien que précieux, souffrent souvent de problèmes de contamination des données et ne permettent pas de conditions expérimentales contrôlées dans différents paramètres et complexités.
Jetant un œil à l’intérieur de la boîte noire
Pour approfondir ces questions, les auteurs de la nouvelle étude définissent des robots génériques et de raisonnement – qui comprennent les modèles O1 et O3 d’Openai, Deepseek R1, le sonnet Claude 3.7 d’Anthropic, les Gémeaux de Google – quatre puzzles classiques à résoudre (rivière Crossing, saut de damier, empets de blocs et empilement et collision La tour de Hanoi). Ils ont ensuite pu ajuster la complexité des puzzles entre bas, moyen et élevé en y ajoutant plus de pièces.
Pour les tâches de faible complexité, les chercheurs ont constaté que les modèles génériques avaient l’avantage sur leurs homologues de raisonnement, résolvant des problèmes sans les coûts de calcul supplémentaires introduits par les chaînes de raisonnement. À mesure que les tâches devenaient plus complexes, les modèles de raisonnement ont gagné un avantage, mais cela n’a pas duré face à des énigmes très complexes, car les performances des deux modèles « se sont effondrées à zéro ».
En passant un seuil critique, les modèles de raisonnement ont réduit les jetons (les modèles fondamentaux des blocs de construction décomposent les données), ils ont été affectés à des tâches plus complexes, ce qui suggère qu’ils raisonnaient moins et avaient des limites fondamentales dans le maintien de chaînes de pensées. Et les modèles ont continué à frapper ces accrocs même lorsqu’ils ont donné des solutions.
« Lorsque nous avons fourni l’algorithme de solution pour la tour de Hanoi aux modèles, leurs performances sur ce puzzle ne se sont pas améliorées », ont écrit les auteurs dans l’étude. « De plus, enquêter sur le premier mouvement de défaillance des modèles a révélé des comportements surprenants. Par exemple, ils pourraient effectuer jusqu’à 100 mouvements corrects dans la tour de Hanoi mais ne parviennent pas à fournir plus de 5 mouvements corrects dans le puzzle de traversée de la rivière. »
Les résultats indiquent que les modèles s’appuyant davantage sur la reconnaissance des modèles, et moins sur la logique émergente, que ceux qui annoncent un renseignement de la machine imminente. Mais les chercheurs mettent en évidence les limites clés de leur étude, notamment que les problèmes ne représentent qu’une « tranche étroite » des tâches de raisonnement potentielles qui pourraient être attribuées.
Apple a également un cheval en retard dans la course AI. L’entreprise est traîner ses rivaux avec Siri étant trouvé par une analyse 25% moins précis que Chatgpt Pour répondre aux requêtes, et privilégie plutôt le développement d’une IA efficace et efficace par rapport à de grands modèles de raisonnement.
Cela a inévitablement conduit certains à accuser la pomme de raisins aigres. « La brillante stratégie d’IA d’Apple est de prouver qu’elle n’existe pas », » Pedros Domingosprofesseur émérite d’informatique et d’ingénierie à l’Université de Washington, a écrit en plaisantant sur x.
Néanmoins, certains chercheurs d’IA ont annoncé l’étude comme une entrée nécessaire de l’eau froide réclamations grandioses À propos de la capacité actuelle des outils d’IA à devenir un jour superintelligent.
« Apple a fait plus pour l’IA que quiconque: ils ont prouvé par le biais de publications évaluées par des pairs selon lesquelles les LLM ne sont que des réseaux de neurones et, en tant que tels, avons toutes les limites d’autres réseaux de neurones formés à une manière supervisée, que moi et quelques autres voix étaient trop forts, mais le bruit d’un tas de feelers Agi et de leurs sycophants était trop fort, » Andriy Burkovun expert en IA et ancien chef d’équipe d’apprentissage automatique du cabinet de conseil en recherche Gartner, écrit sur x. « Maintenant, j’espère que les scientifiques reviendront faire de la vraie science en étudiant les LLM en tant que mathématiciens d’étude des fonctions et non en leur parlant alors que les psychiatres parlent aux personnes malades. »