an illustration of a line of robots working on computers

L’IA peut gérer les tâches deux fois plus complexes tous les quelques mois. Que signifie cette croissance exponentielle pour la façon dont nous l’utilisons?

Par Anissa Chauvin

Les scientifiques ont conçu une nouvelle façon de mesurer à quel point intelligence artificielle (IA) Les systèmes sont – à quelle vitesse ils peuvent battre ou rivaliser avec les humains dans des tâches difficiles.

Bien que les AIS puissent généralement surpasser les humains dans la prédiction de texte et les tâches de connaissances, lorsqu’ils ont donné des projets plus substantiels à réaliser, tels que l’assistance à distance, ils sont moins efficaces.

Pour quantifier ces gains de performance dans les modèles d’IA, une nouvelle étude a proposé de mesurer les AIS en fonction de la durée des tâches qu’ils peuvent effectuer, par rapport à la durée des humains. Les chercheurs ont publié leurs résultats le 30 mars sur la base de données Preprint arxivils n’ont donc pas encore été évalués par des pairs.

« Nous constatons que la mesure de la durée des tâches que les modèles peuvent effectuer est un objectif utile pour comprendre les capacités actuelles de l’IA. Évaluation des modèles et recherche sur les menaces (METR) expliqué dans un article de blog accompagnant l’étude.

Les chercheurs ont constaté que les modèles d’IA avaient effectué des tâches qui emmèneraient les humains moins de quatre minutes avec un taux de réussite de près de 100%. Cependant, cela a chuté à 10% pour les tâches prenant plus de quatre heures. Les modèles d’IA plus anciens ont permis de faire moins de tâches plus longues que les derniers systèmes.

Cela devait s’attendre à ce que l’étude soulignant que la durée des tâches généralistes de l’AIS pourrait effectuer avec une fiabilité de 50% a doublement deux mois tous les six mois.

Pour mener leur étude, les chercheurs ont pris une variété de modèles d’IA – de Sonnet 3.7 et GPT-4 à Claude 3 Opus et des modèles GPT plus anciens – et les ont opposés à une suite de tâches. Ceux-ci allaient des affectations faciles qui emmènent généralement les humains quelques minutes comme la recherche d’une question factuelle de base sur Wikipedia) à ceux qui emmènent les experts humains plusieurs heures – des tâches de programmation complexes comme la rédaction de grains Cuda ou la réparation d’un bug subtil à Pytorch, par exemple.

Tester des outils, notamment Hast et Relancer ont été utilisés; Le premier possède 189 tâches logicielles d’autonomie pour évaluer les capacités des agents d’IA dans la gestion des tâches autour de l’apprentissage automatique, de la cybersécurité et de l’ingénierie logicielle, tandis que le second utilise sept tâches d’ingénierie de recherche en machine à apprentissage automatique à ouverture, telles que l’optimisation d’un noyau GPU, le benchmarked contre les experts humains.

Les chercheurs ont ensuite évalué ces tâches pour le «désordre», pour voir et évaluer comment certaines tâches contenaient des choses comme la nécessité de coordination entre plusieurs flux de travail en temps réel – rendant efficacement la tâche plus compliquée – et sont donc plus représentatives des tâches du monde réel.

Les chercheurs ont également développé des actions atomiques logicielles (SWAA) pour établir à quelle vitesse les vraies personnes peuvent effectuer les tâches. Ce sont des tâches en une seule étape allant de une à 30 secondes, de base par les employés de METR.

En effet, l’étude a révélé que la «durée d’attention» de l’IA avance à grande vitesse. En extrapolant cette tendance, les chercheurs ont projeté (si leurs résultats peuvent généralement être appliqués aux tâches réelles) que l’IA peut automatiser la valeur d’un mois de développement de logiciels humains d’ici 2032 ..

Pour mieux comprendre les capacités avancées de l’IA et son impact potentiel et ses risques pour la société, cette étude pourrait former une nouvelle référence relative aux résultats du monde réel pour permettre « une interprétation significative de la performance absolue, pas seulement des performances relatives », ont déclaré les scientifiques.

Une nouvelle frontière pour évaluer l’IA?

Une nouvelle référence potentielle pourrait nous permettre de mieux comprendre l’intelligence et les capacités réelles des systèmes d’IA.

« La métrique elle-même ne risque pas de changer le cours du développement de l’IA, mais elle suivra la rapidité avec laquelle les progrès sont réalisés sur certains types de tâches dans lesquelles les systèmes d’IA seront idéalement utilisés »,  » Sohrob Kazerounianun éminent chercheur d’IA à Vectra AI, a déclaré à Live Science.

« La mesure de l’IA contre la durée, il faut un humain pour accomplir une tâche donnée est une métrique proxy intéressante pour l’intelligence et les capacités générales », a déclaré Kazerounian. « Premièrement, parce qu’il n’y a pas de métrique singulière qui capture ce que nous voulons dire lorsque nous disons » l’intelligence « . Deuxième Il a ajouté.

Eleanor WatsonMembre de l’IEEE et ingénieur d’éthique de l’IA à l’Université Singularity, convient que la recherche est utile.

La mesure des IA sur la durée des tâches est « précieuse et intuitive » et « reflète directement la complexité du monde réel, capturant les compétences de l’IA pour maintenir un comportement cohérent dirigé par des objectifs au fil du temps », par rapport aux tests traditionnels qui évaluent les performances de l’IA sur des problèmes courts et isolés, a-t-elle déclaré à Live Science.

L’IA généraliste arrive

Sans doute, en plus d’une nouvelle métrique de référence, le plus grand impact du document est de souligner la rapidité avec laquelle les systèmes d’IA progressent, parallèlement à la tendance à la hausse de leur capacité à gérer de longues tâches. Dans cet esprit, Watson prédit que l’émergence d’agents généralistes de l’IA qui peut gérer une variété de tâches sera imminente.

« D’ici 2026, nous verrons l’IA devenir de plus en plus générale, gérant des tâches variées sur une journée ou une semaine entière plutôt que des affectations courtes et définies étroitement », a déclaré Watson.

Pour les entreprises, a noté Watson, cela pourrait produire des AIS qui peuvent prendre des parties substantielles des charges de travail professionnelles – qui pourraient non seulement réduire les coûts et améliorer l’efficacité, mais également permettre aux gens de se concentrer sur des tâches plus créatives, stratégiques et interpersonnelles.

« Pour les consommateurs, l’IA évoluera d’un simple assistant en un gestionnaire personnel fiable, capable de gérer des tâches de vie complexes – telles que la planification des voyages, la surveillance de la santé ou la gestion des portefeuilles financiers – au cours des jours ou des semaines, avec une surveillance minimale », a ajouté Watson.

En effet, la capacité de les AIS à gérer un large éventail de tâches longues pourrait avoir un impact significatif sur la façon dont la société interagit et utilise l’IA au cours des prochaines années.

« Alors que les outils d’IA spécialisés persisteront dans des applications de niche pour des raisons d’efficacité, de puissants agents d’IA généraliste – capables de basculer de manière flexible entre diverses tâches – émergeront en bonne place », a conclu Watson. « Ces systèmes intégreront des compétences spécialisées dans des flux de travail plus larges et dirigés, de remodeler la vie quotidienne et les pratiques professionnelles de manière fondamentale. »

Anissa Chauvin