0
Suivez-nous
Des chercheurs du Center for AI Safety et de Scale AI ont publié « Humanity’s Last Exam », un test conçu pour mesurer la proximité des systèmes les plus puissants d’aujourd’hui. intelligence artificielle Les modèles (IA) doivent atteindre ou dépasser les connaissances au niveau humain dans plusieurs domaines.
Le test a été lancé en janvier 2025, mais les scientifiques ont décrit pour la première fois le cadre et la réflexion derrière sa conception dans une nouvelle étude publiée le 28 janvier dans la revue Nature. Il contient un corpus de 2 500 questions couvrant plus de 100 sujets, avec la contribution de plus de 1 000 experts en la matière provenant de 500 institutions réparties dans 50 pays.
Lors du lancement, les chercheurs ont testé les modèles GPT-4o et o1 d’OpenAI, Gemini 1.5 Pro de Google, Claude 3.5 Sonnet d’Anthropic et DeepSeek R1. Le système o1 d’OpenAI a décroché la première place avec un score de seulement 8,3 %.
Malgré ces mauvaises performances, les chercheurs écrivaient à l’époque que « étant donné le rythme rapide du développement de l’IA, il est plausible que les modèles puissent dépasser les 50 % de précision sur HLE d’ici fin 2025 ».
Au 12 février 2026, le score le plus élevé atteint jusqu’à présent est de 48,4 %, défini par Gemini 3 Deep Think de Google. Les experts humains, quant à eux, obtiennent un score d’environ 90 % dans leurs domaines respectifs.
Tester les machines les plus intelligentes du monde
Le dernier examen de l’humanité a été intentionnellement conçu pour être extrêmement difficile pour les modèles d’IA. Au début du développement, les chercheurs ont lancé un appel mondial à soumissions auprès d’experts en la matière dans de nombreux domaines.
Les chercheurs ont appliqué des critères de soumission stricts exigeant que les questions soient précises, sans ambiguïté, résolubles et non consultables. Ils ne voulaient pas que les modèles trichent en effectuant une simple recherche sur le Web, ou que l’une des questions apparaisse déjà en ligne, augmentant ainsi la probabilité qu’un modèle donné ait la réponse dans son ensemble de données d’entraînement.
Chaque question soumise a ensuite été transmise aux modèles d’IA. L’équipe a automatiquement rejeté toutes les questions auxquelles les modèles pouvaient répondre correctement.
Plus de 70 000 soumissions ont été tentées, ce qui a donné lieu à environ 13 000 questions qui ont déconcerté les LLM. Ceux-ci ont ensuite été examinés par une équipe d’experts en la matière, approuvés par l’équipe de recherche et présentés à la communauté scientifique pour commentaires ouverts.
En fin de compte, les chercheurs ont réduit le nombre total de questions soumises à 2 500 questions qui relèvent généralement des tests de niveau doctorat.
Un exemple de question triviale de l’examen est : « Dans la mythologie grecque, qui était l’arrière-grand-père maternel de Jason ? »
Pendant ce temps, un exemple de question de physique demande la relation entre différentes forces pendant le mouvement dans un scénario dans lequel un bloc est placé sur un rail horizontal (et peut glisser sans friction) tout en étant également attaché à une tige rigide et sans masse d’une longueur inconnue.
L’étendue des questions et la portée des sujets couverts par le Dernier examen de l’humanité le distinguent des outils d’analyse comparative similaires, affirment ses créateurs.
Les tests courants, tels que le Compréhension massive du langage multitâche (MMLU), rédigé avec la participation du fondateur du Center for AI Safety Dan Hendryckstestent uniquement un petit sous-ensemble de connaissances dans un domaine de niveau expert, se concentrant principalement sur le codage et les mathématiques.
Même des références de pointe comme celle de François Chollet ARC-AGI suite a du mal à dépasser les problèmes de mémorisation et de recherche auxquels les créateurs de Humanity’s Last Exam suggèrent les nouvelles adresses de test. Deep Think de Gemini, par exemple, a obtenu 84,6 % au test de référence ARC-AGI-2, une semaine seulement après avoir échoué à atteindre 50 % au test HLE.
Le prix ultime est l’intelligence générale
Le dernier examen de l’humanité représente probablement la meilleure tentative du monde de l’IA à ce jour pour mesurer les capacités à large spectre des modèles d’IA modernes par rapport aux experts humains, mais les auteurs de l’étude déclarent catégoriquement qu’obtenir un score élevé au HLE n’est en aucun cas une indication de l’arrivée de intelligence artificielle générale (AGI).
« Une haute précision sur HLE démontrerait des performances de niveau expert sur des questions fermées et vérifiables et des connaissances scientifiques de pointe, mais cela ne suggérerait pas à lui seul des capacités de recherche autonomes ou une intelligence artificielle générale », ont déclaré les scientifiques dans l’étude.
« Une bonne réussite en HLE est un critère nécessaire, mais pas suffisant, pour dire que les machines ont atteint la véritable intelligence », Manuel Schottdorfneuroscientifique au Département des sciences psychologiques et du cerveau de l’Université du Delaware, a déclaré dans un communiqué. déclaration récente. Schottdorf est l’un des nombreux experts dont la question a été acceptée dans le corpus de la HLE.
« Ils devront être assez bons pour résoudre ces questions, mais cela ne peut à lui seul nous permettre de conclure que les machines sont vraiment intelligentes. »

