Les mathématiciens ont déconcerté les méthodes génératives les plus avancées intelligence artificielle (IA) avec une série de nouveaux problèmes mathématiques époustouflants.
Selon l’institut de recherche, ces problèmes nécessitent généralement des heures, voire des jours, de la part des mathématiciens de niveau doctorat. Époque IA. Mais lors des nouveaux tests, les modèles d’IA les plus avancés du marché ont obtenu des réponses correctes sur moins de 2 % de ces problèmes.
Au cours de la dernière décennie, un certain nombre de tests d’IA ont été développés pour déterminer si les réponses renvoyées par ces modèles sont réellement correctes. Dans de nombreux cas, les modèles d’IA franchissent désormais ces critères.
Par exemple, dans le test de référence MMLU (Measage Massive Multitask Language Understanding), couramment utilisé, les modèles d’IA actuels répondent correctement à 98 % des problèmes mathématiques.
La plupart de ces tests visent à tester la capacité de l’IA à effectuer des mathématiques au niveau secondaire et collégial, ont écrit Elliot Glazer, mathématicien à Epoch AI, et ses collègues dans un nouvel article publié sur la base de données pré-imprimée. arXiv. (L’article n’a pas encore été évalué par des pairs ni publié dans une revue scientifique.)
Le nouvel ensemble de critères, appelé FrontierMath, vise un niveau de raisonnement plus élevé. Epoch AI a développé les questions avec l’aide de professeurs de mathématiques, dont certains lauréats de la médaille Fields, peut-être le prix le plus prestigieux en mathématiques. Les problèmes couvrent un large éventail de sous-domaines, de la théorie des nombres à la géométrie algébrique, et sont disponibles sur Site Web d’Epoch AI.
Les problèmes étaient également uniques – une mesure prise pour garantir qu’aucun des problèmes ne se trouvait déjà dans les données d’entraînement des modèles d’IA. Lorsque des problèmes de raisonnement complexes sont inclus dans les données d’entraînement, l’IA peut sembler résoudre les problèmes, mais en réalité, elle dispose déjà d’une « aide-mémoire », puisqu’elle a été entraînée sur les réponses.
Les chercheurs ont testé six modèles d’IA de pointe : Gemini 1.5 Pro (002) de Google, Claude 3.5 Sonnet d’Anthropic, o1-preview, o1-mini d’OpenAI et Grok-2 Beta de GPT4o et xAI. Gemini et Claude ont réussi à résoudre 2%, ce qui était à peine meilleur que les résultats de o1-preview, o1-mini et GPT-4o 1%. Grok-2 Beta n’a pas réussi à résoudre les problèmes.
Cependant, ces classements sont trompeurs car le faible taux de réussite signifie qu’une seule bonne réponse peut avoir un impact démesuré sur le score global de chaque modèle, préviennent les chercheurs.
« Même lorsqu’un modèle obtient la bonne réponse, cela ne signifie pas que son raisonnement était correct », écrivent les auteurs de l’article. « Par exemple, sur l’un de ces problèmes, exécuter quelques simulations simples était suffisant pour faire des suppositions précises sans aucune compréhension mathématique plus approfondie. Cependant, la faible précision globale des modèles montre que de telles stratégies de devinettes ne fonctionnent pas sur l’écrasante majorité des problèmes de FrontierMath. »
Les résultats montrent qu’à l’heure actuelle, les modèles d’IA ne possèdent pas de raisonnement mathématique de niveau recherche, ont conclu les collaborateurs d’Epoch AI. Cependant, à mesure que les modèles d’IA progressent, ces tests de référence permettront de savoir si leurs capacités de raisonnement s’approfondissent.
« En évaluant régulièrement les modèles de pointe et en collaborant avec la communauté de recherche en IA », a écrit l’équipe dans le communiqué, « nous visons à approfondir notre compréhension des capacités et des limites de l’IA ».