Il existe de nombreuses façons de tester l’intelligence d’un intelligence artificielle – Fluidité conversationnelle, compréhension de la lecture ou difficile à plier physique. Mais certains des tests qui sont les plus susceptibles de couper AIS sont ceux que les humains trouvent relativement facile, voire divertissant. Bien que les AIS excellent de plus en plus aux tâches qui nécessitent des niveaux élevés d’expertise humaine, cela ne signifie pas qu’ils sont sur le point d’atteindre l’intelligence générale artificielle, ou AGI. Agi Exige qu’une IA puisse prendre une très petite quantité d’informations et les utiliser pour généraliser et s’adapter à des situations très nouvelles. Cette capacité, qui est la base de l’apprentissage humain, reste difficile pour les AIS.
Un test conçu pour évaluer la capacité d’une IA à généraliser est l’abstraction et le raisonnement corpus, ou arc: une collection de petits puzzles de grille colorée qui demandent à un solveur de déduire une règle cachée, puis de l’appliquer à une nouvelle grille. Développé par le chercheur de l’IA François Chollet en 2019, il est devenu la base de l’Arc Prize Foundation, un programme à but non lucratif qui administre le test – maintenant un référence de l’industrie utilisé par tous les principaux modèles d’IA. L’organisation développe également de nouveaux tests et a systématiquement utilisé deux (ARC-AGI-1 et son successeur plus difficile ARC-AGI-2). Cette semaine, la fondation lance Arc-AGI-3, qui est spécialement conçue pour tester les agents de l’IA – et est basée sur les faits de jouer à des jeux vidéo.
Scientifique américain Parlé avec le président de la Fondation ARC Prix, le chercheur et entrepreneur de l’IA, Greg Kamradt, pour comprendre comment ces tests évaluent les AIS, ce qu’ils nous disent sur le potentiel d’AGI et pourquoi ils sont souvent difficiles pour les modèles d’apprentissage en profondeur, même si de nombreux humains ont tendance à les trouver relativement faciles. Les liens pour essayer les tests sont à la fin de l’article.
(Une transcription éditée de l’interview suit.)
Quelle définition de l’intelligence est mesurée par ARC-AGI-1?
Notre définition de l’intelligence est votre capacité à apprendre de nouvelles choses. Nous savons déjà que l’IA peut gagner aux échecs. Nous savons qu’ils peuvent battre Go. Mais ces modèles ne peuvent pas généraliser à de nouveaux domaines; Ils ne peuvent pas aller apprendre l’anglais. Donc, ce que François Chollet a fait était une référence appelée Arc-Agi – elle vous apprend une mini compétence dans la question, puis il vous demande de démontrer cette mini compétence. Nous enseignons essentiellement quelque chose et vous demandons de répéter les compétences que vous venez d’apprendre. Le test mesure donc la capacité d’un modèle à apprendre dans un domaine étroit. Mais notre affirmation est qu’elle ne mesure pas AGI car elle est toujours dans un domaine dans le cadre (dans lequel l’apprentissage s’applique à une zone limitée). Il mesure qu’une IA peut généraliser, mais nous ne prétendons pas que c’est AGI.
Comment définissez-vous AGI ici?
Il y a deux façons de le voir. Le premier est plus à la technologie, qui est «un système artificiel peut-il correspondre à l’efficacité d’apprentissage d’un humain? Maintenant, ce que je veux dire par là, c’est après la naissance des humains, ils apprennent beaucoup en dehors de leurs données de formation. En fait, ils ne le font pas vraiment avoir Données de formation, autres que quelques prieurs évolutifs. Nous apprenons donc à parler anglais, nous apprenons à conduire une voiture et nous apprenons à faire du vélo – toutes ces choses en dehors de nos données d’entraînement. C’est ce qu’on appelle la généralisation. Lorsque vous pouvez faire des choses en dehors de ce que vous avez formé maintenant, nous définissons cela comme une intelligence. Maintenant, une définition alternative de l’AGI que nous utilisons est lorsque nous ne pouvons plus trouver de problèmes que les humains peuvent faire et que l’IA ne peut pas – c’est à ce moment-là que nous avons AGI. C’est une définition d’observation. Le revers est également vrai, ce qui est aussi long que le prix d’arc ou l’humanité en général peut toujours trouver des problèmes que les humains peuvent faire, mais l’IA ne peut pas, alors nous n’avons pas d’agi. L’un des facteurs clés de la référence de François Chollet … est que nous testons les humains sur eux, et l’humain moyen peut faire ces tâches et ces problèmes, mais l’IA a toujours du mal avec elle. La raison pour laquelle il est si intéressant est que certaines AIS avancées, comme Grok, peuvent passer n’importe quel examen de niveau supérieur ou faire toutes ces choses folles, mais c’est une intelligence épineuse. Il n’a toujours pas le pouvoir de généralisation d’un humain. Et c’est ce que montre cette référence.
En quoi vos repères diffèrent-ils de ceux utilisés par d’autres organisations?
L’une des choses qui nous différencie, c’est que nous avons besoin que notre référence soit résoluble par les humains. C’est en opposition à d’autres repères, où ils font des problèmes « Ph.D.-plus ». Je n’ai pas besoin d’être dit que l’IA est plus intelligente que moi – je sais déjà que l’O3 d’Openai peut faire beaucoup de choses mieux que moi, mais il n’a pas le pouvoir d’humain de généraliser. C’est ce que nous mesurons, nous devons donc tester les humains. Nous avons en fait testé 400 personnes sur ARC-AGI-2. Nous les avons mis dans une pièce, nous leur avons donné des ordinateurs, nous avons fait un dépistage démographique, puis nous leur avons fait le test. La personne moyenne a marqué 66% sur ARC-AGI-2. Collectivement, cependant, les réponses agrégées de cinq à 10 personnes contiendront les bonnes réponses à toutes les questions sur l’ARC2.
Qu’est-ce qui rend ce test difficile pour l’IA et relativement facile pour les humains?
Il y a deux choses. Les humains sont incroyablement économes en échantillons avec leur apprentissage, ce qui signifie qu’ils peuvent regarder un problème et avec peut-être un ou deux exemples, ils peuvent ramasser la mini-compétence ou la transformation et ils peuvent aller le faire. L’algorithme qui fonctionne dans la tête d’un humain est les ordres de grandeur mieux et plus efficaces que ce que nous voyons avec l’IA en ce moment.
Quelle est la différence entre Arc-AGI-1 et ARC-AGI-2?
Alors Arc-Agi-1, François Chollet l’a fait lui-même. C’était environ 1 000 tâches. C’était en 2019. Il a essentiellement fait la version minimale viable afin de mesurer la généralisation, et elle a eu lieu pendant cinq ans parce que l’apprentissage en profondeur ne pouvait pas le toucher du tout. Ça ne se rapprochait même pas. Ensuite, des modèles de raisonnement qui sont sortis en 2024, par Openai, ont commencé à progresser, ce qui a montré un changement de niveau de pas dans ce que l’IA pouvait faire. Ensuite, lorsque nous sommes allés à Arc-AGI-2, nous sommes allés un peu plus loin dans le terrier du lapin en ce qui concerne ce que les humains peuvent faire et l’IA ne peut pas. Cela nécessite un peu plus de planification pour chaque tâche. Ainsi, au lieu d’être résolu en cinq secondes, les humains peuvent le faire en une minute ou deux. Il y a des règles plus compliquées, et les grilles sont plus grandes, vous devez donc être plus précis avec votre réponse, mais c’est le même concept, plus ou moins … Nous lançons maintenant un aperçu du développeur pour Arc-Agi-3, et cela quitte complètement ce format. Le nouveau format sera en fait interactif. Considérez donc davantage comme une référence d’agent.
Comment les agents de test ARC-AGI-3 seront-ils différemment par rapport aux tests précédents?
Si vous pensez à la vie quotidienne, il est rare que nous ayons une décision apatride. Quand je dis sans état, je veux dire juste une question et une réponse. À l’heure actuelle, toutes les références sont plus ou moins apatrides. Si vous posez une question à un modèle de langue, cela vous donne une seule réponse. Il y a beaucoup de choses que vous ne pouvez pas tester avec une référence apatride. Vous ne pouvez pas tester la planification. Vous ne pouvez pas tester l’exploration. Vous ne pouvez pas tester en intuition sur votre environnement ou les objectifs qui viennent avec cela. Nous faisons donc 100 nouveaux jeux vidéo que nous utiliserons pour tester les humains pour nous assurer que les humains peuvent les faire parce que c’est la base de notre référence. Et puis nous allons déposer AIS dans ces jeux vidéo et voir s’ils peuvent comprendre cet environnement qu’ils n’ont jamais vu auparavant. À ce jour, avec nos tests internes, nous n’avons pas eu une seule IA en mesure de battre un même niveau de l’un des jeux.
Pouvez-vous décrire les jeux vidéo ici?
Chaque «environnement» ou jeu vidéo est un puzzle à deux dimensions basé sur des pixels. Ces jeux sont structurés comme des niveaux distincts, chacun conçu pour enseigner une mini-compétence spécifique au joueur (humain ou IA). Pour terminer avec succès un niveau, le joueur doit démontrer la maîtrise de cette compétence en exécutant des séquences d’action planifiées.
En quoi l’utilisation de jeux vidéo pour tester AGI est-elle différente de la façon dont les jeux vidéo ont déjà été utilisés pour tester les systèmes d’IA?
Les jeux vidéo ont longtemps été utilisés comme références dans la recherche sur l’IA, les jeux Atari étant un exemple populaire. Mais les repères de jeu vidéo traditionnels sont confrontés à plusieurs limites. Les jeux populaires ont des données de formation approfondies accessibles au public, manquent de mesures d’évaluation des performances standardisées et permettent des méthodes brutales impliquant des milliards de simulations. De plus, les développeurs qui construisent des agents d’IA ont généralement une connaissance préalable de ces jeux – intégrant involontairement leurs propres informations sur les solutions.
Essayer Arc-agi-1, Arc-agi-2 et Arc-agi-3.
Cet article a été publié pour la première fois à Scientifique américain. © ScientificAmerican.com. Tous droits réservés. Suivre Tiktok et Instagram, X et Facebook.

