Un week-end à la mi-mai, un conclave mathématique clandestin s’est convoqué. Trente des mathématiciens les plus renommés du monde se sont rendus à Berkeley, en Californie, certains venant aussi loin que le Royaume-Uni auxquels les membres du groupe ont affronté dans une confrontation avec un chatbot « raisonnement » qui a été chargé de résoudre des problèmes qu’ils avaient conçus pour tester son courage mathématique. Après avoir posé des questions au niveau du professeur au bot pendant deux jours, les chercheurs ont été stupéfaits de découvrir qu’il était capable de répondre à une partie de la Problèmes de résolution les plus difficiles du monde. « J’ai des collègues qui ont littéralement dit que ces modèles approchaient du génie mathématique », explique Ken Ono, mathématicien à l’Université de Virginie et chef et juge à la réunion.
Le chatbot en question est alimenté par o4-minun soi-disant raisonnement de grande langue (LLM). Il a été formé par OpenAI pour être capable de faire des déductions très complexes. L’équivalent de Google, Gémeaux 2.5 Flasha des capacités similaires. Comme les LLM qui alimentaient les versions antérieures de Chatgpt, O4-Mini apprend à prédire le mot suivant dans une séquence. Par rapport à ces LLM précédents, cependant, O4-Mini et ses équivalents sont des modèles plus légers et plus agiles qui s’entraînent sur des ensembles de données spécialisés avec un renforcement plus fort de la part des humains. L’approche conduit à un chatbot capable de plonger beaucoup plus dans des problèmes complexes en mathématiques que LLMS traditionnels.
Pour suivre les progrès de O4-Mini, Openai auparavant Epoch AI chargé, un organisme à but non lucratif qui benchmarks LLMS, pour poser 300 questions mathématiques dont les solutions n’avaient pas encore été publiées. Même les LLM traditionnels peuvent répondre correctement à de nombreuses questions mathématiques compliquées. Pourtant, lorsque Epoch AI a posé plusieurs de ces modèles de ce type, ces questions, qui étaient différentes de celles sur lesquelles ils avaient été formés, les plus réussis ont pu résoudre Moins de 2%montrant ces LLMS n’avait pas la capacité de raisonner. Mais O4-Mini s’avérerait très différent.
Epoch Ai a embauché Elliot Glazer, qui avait récemment terminé son Ph.D. en mathématiques, pour rejoindre la nouvelle collaboration pour la référence, surnommée Frontitierhathen septembre 2024. Le projet a collecté de nouvelles questions sur différents niveaux de difficulté, les trois premiers niveaux couvrant les défis de premier cycle, des diplômés et de la recherche. En avril 2025, Glazer a constaté que O4-Mini pouvait résoudre environ 20% des questions. Il est ensuite passé à un quatrième niveau: un ensemble de questions qui seraient difficiles même pour un mathématicien académique. Seul un petit groupe de personnes dans le monde serait capable de développer de telles questions, sans parler de leur répondre. Les mathématiciens qui ont participé ont dû signer un accord de non-divulgation les obligeant à communiquer uniquement via le signal de l’application de messagerie. D’autres formes de contact, telles que le courrier électronique traditionnel, pourraient potentiellement être scannées par un LLM et la former par inadvertance, contaminant ainsi l’ensemble de données.
Chaque problème que O4-Mini ne pouvait pas résoudre pourrait susciter le mathématicien qui a trouvé une récompense de 7 500 $. Le groupe a fait des progrès lents et réguliers dans la recherche de questions. Mais Glazer voulait accélérer les choses, alors Epoch Ai a accueilli la réunion en personne le samedi 17 mai et le dimanche 18 mai. Là, les participants finiraient le dernier lot de questions de défi. Les 30 participants ont été divisés en groupes de six. Pendant deux jours, les universitaires ont concouru contre eux-mêmes pour susciter des problèmes qu’ils pourraient résoudre, mais trébucheraient le bot de raisonnement en IA.
Vaincu, Ono a sauté sur le signal tôt ce dimanche matin et a alerté le reste des participants. « Je n’étais pas prêt à affronter un LLM comme celui-ci », dit-il, « je n’ai jamais vu ce genre de raisonnement auparavant dans des modèles. C’est ce qu’un scientifique fait. C’est effrayant. »
Bien que le groupe ait finalement réussi à trouver 10 questions qui ont entravé le bot, les chercheurs ont été étonnés par la mesure dans laquelle l’IA avait progressé en l’espace d’un an. Ono l’a comparé à travailler avec un «collaborateur fort». Yang Hui He, mathématicien à l’Institut londonien pour les sciences mathématiques et un premier pionnier de l’utilisation de l’IA en mathématiques, dit: « C’est ce qu’un très, très bon étudiant diplômé ferait – en fait plus. »
Le bot était également beaucoup plus rapide qu’un mathématicien professionnel, ne prenant que quelques minutes pour faire ce qu’il faudrait une telle semaine ou des mois d’experts humains.
Alors que le combat avec O4-Mini était passionnant, ses progrès étaient également alarmants. Ono et il expriment leur inquiétude que les résultats de l’O4-Mini pourraient faire trop confiance. « Il y a la preuve par induction, la preuve par contradiction, puis la preuve par intimidation », dit-il. « Si vous dites quelque chose avec suffisamment d’autorité, les gens ont juste peur. Je pense que O4-Mini a maîtrisé la preuve par intimidation; cela dit tout avec tant de confiance. »
À la fin de la réunion, le groupe a commencé à considérer à quoi pourrait ressembler l’avenir pour les mathématiciens. Les discussions se sont tournées vers l’inévitable «de niveau cinq» – des questions que même les meilleurs mathématiciens ne pouvaient pas résoudre. Si l’IA atteint ce niveau, le rôle des mathématiciens subirait un changement net. Par exemple, les mathématiciens peuvent se déplacer simplement pour poser des questions et interagir avec le raisonnement pour les aider à découvrir de nouvelles vérités mathématiques, tout comme un professeur avec des étudiants diplômés. En tant que tel, Ono prédit que la créativité nourricière dans l’enseignement supérieur sera une clé pour maintenir les mathématiques pour les générations futures.
« J’ai dit à mes collègues que c’est une grave erreur de dire que généralisée intelligence artificielle ne viendra jamais, (que) c’est juste un ordinateur « , dit Ono. » Je ne veux pas ajouter à l’hystérie, mais à certains égards, ces grands modèles de langue surpasse déjà la plupart de nos meilleurs étudiants diplômés au monde. «
Cet article a été publié pour la première fois à Scientifique américain. © ScientificAmerican.com. Tous droits réservés. Suivre Tiktok et Instagram, X et Facebook.

