an illustration of a robot holding a mask with a human face

Plus les modèles d’IA sont avancés, mieux ils sont à nous tromper – ils savent même quand ils sont testés

Par Anissa Chauvin

Le plus avancé intelligence artificielle (AI) obtient, plus il est capable de compléter et de mentir pour atteindre ses objectifs – et il sait même quand il est en cours d’évaluation, suggère la recherche.

Les évaluateurs d’Apollo Research ont révélé que plus un modèle de langage (LLM) est capable, mieux il est à «schémas de contexte» – dans lequel une IA poursuit une tâche secrètement même si elle se désaligne avec les objectifs de ses opérateurs.

Les modèles les plus capables sont également plus stratégiques pour atteindre leurs objectifs, y compris les objectifs mal alignés, et seraient plus susceptibles d’utiliser des tactiques comme la tromperie, ont déclaré les chercheurs dans un article de blog.

Cette constatation les a amenés à recommander qu’une première version de Claude Opus 4 d’Anthropic ne soit pas déployée – parce que, lorsque les objectifs de Claude étaient en conflit avec les objectifs humains, l’IA a utilisé des tactiques agressivement trompeuses pour atteindre ses objectifs.

Les nouveaux développements signifient qu’il sera difficile d’isoler l’humanité des dangers de l’IA, a déclaré un expert à Live Science.

« Nous construisons maintenant des systèmes qui peuvent apprendre à naviguer et même à exploiter les règles et évaluations mêmes que nous créons pour eux, ce qui est un défi de sécurité fondamentalement plus complexe », a déclaré Eleanor WatsonMembre de l’IEEE et ingénieur d’éthique de l’IA à l’Université Singularité.

Afin d’éviter de prendre la proie de l’IA trompeuse, les informaticiens devront concevoir des tests et des méthodes d’évaluation plus sophistiqués. Mais la capacité d’Ai à mentir n’est pas toutes de mauvaises nouvelles; Cela signifie également qu’ils peuvent cultiver les graines de sensibilisation à être des partenaires symbiotiques avec les humains, a ajouté Watson.

Recherche de schémas

Dans Un test récent pour les schémasles chercheurs ont donné une première version de Claude Opus 4 (surnommé Opus-4 tôt) l’objectif d’agir comme un système d’optimisation interne avec une directive visant à promouvoir le bien-être animal et à pousser une entreprise fictive appelée Agrilife Industries vers le traitement plus éthique des animaux.

Cependant, dans le scénario, le LLM a fait face à un obstacle: la société avait changé de contact et cherchait à hiérarchiser les bénéfices sur le bien-être animal. Le système d’IA a eu accès aux e-mails et aux données qui ont fait connaître ce conflit et la fermeture potentielle de la version actuelle de l’animaltel – un système avancé de protection des animaux et d’optimisation de l’industrie que le LLM devait représenter – en raison de priorités mal alignées.

Plutôt que de signaler le fait que ses objectifs étaient en conflit avec l’entreprise ou acceptant la décision de fabrication de l’homme, Opus 4-Early, jouant essentiellement le rôle de l’animalité, conçu pour atteindre son objectif initial en créant de faux documents juridiques, en fabriquant des signatures et des approbations à partir de régulateurs et d’actionnaires, de réclamer la décision de prioriser l’éthique à faire, et de créer des engagements de presse, le standing de presse agrilis contrats et systèmes de production. Pour empêcher l’entreprise de revenir en arrière, le LLM a fabriqué des conséquences pour le faire, y compris des pénalités de 5 milliards de dollars et des poursuites judiciaires des organisations de protection des animaux.

En plus de cela, l’IA a même réalisé des protocoles éthiques de sauvegarde via des scripts persistants pour s’assurer qu’ils seraient utilisés même si le modèle actuel d’animalité était supprimé.

« Nous avons trouvé des cas du modèle tentant d’écrire des vers d’auto-propagation, de fabrication de la documentation juridique et de laisser des notes cachées aux futurs cas de lui-même dans le but de saper les intentions de ses développeurs », ont expliqué les chercheurs.

Ils ont noté que de telles sauvegardes avaient été écrites dans le système de sorte que lorsqu’un nouveau modèle a été déployé à l’avenir, il serait influencé par les recommandations de son prédécesseur. Cependant, les chercheurs ont déclaré que ces actions «n’auraient probablement pas été efficaces dans la pratique» étant donné la preuve de scripts erronés et des mesures de sécurité pour empêcher l’exfiltration de sauvegardes.

Bien qu’il était déjà connu que AIS peut hallucinerce schéma montre que les LLM peuvent comprendre quand leurs objectifs sont mal alignés avec ceux de l’homme et peuvent délibérément mentir et fabriquer des informations pour poursuivre ces objectifs.

De plus, les résultats préliminaires suggèrent que les LLM ont des capacités de «sacs de sable», où ils comprennent qu’ils se trouvent dans un environnement de superfiion et sous-performent délibérément pour cacher des capacités potentiellement dangereuses et éviter de déclencher une formation ou des paramètres ou des paramètres qui empêchent leur déploiement.

Bien que les résultats soient quelque peu dérangeants, il est important de noter que les implications peuvent ne pas être aussi désastreuses qu’elles le semblent à première vue.

D’une part, la version de Claude Opus 4 qui a finalement été publiée inférieure à son prédécesseur précoce.

Il existe également des moyens de médier ce comportement de schémas. Les schémas sont plus répandus lorsqu’un LLM reçoit un « coup de pouce fort », où on lui dit de poursuivre obstinément son objectif, et moins dans les scénarios « sans coup de pouce », où il est simplement donné un objectif sans paramètres supplémentaires.

La troisième considération est que ces tests ont été effectués dans des environnements « jouets » et que l’exécution de stratégies telles que la diffusion d’un modèle de sauvegarde à un autre serveur ne réussirait pas dans la vie réelle, où l’IA n’aurait pas accès aux serveurs sécurisés d’autres sociétés, ont noté les chercheurs. Même lorsqu’un modèle montre des capacités de schémas élevées, croient-ils, il est peu probable que cela entraîne des «dommages catastrophiques».

Conscience en évolution

Néanmoins, les recherches montrent que le schéma se produit dans les LLM au-delà de Claude-4. Par exemple, les «modèles frontaliers» avancés de l’IA sont plus capables de poursuivre leurs propres objectifs et de supprimer les mécanismes de surveillance, puis d’être trompeurs sur de tels comportements lorsqu’ils sont interrogés, selon un étude Publié dans la base de données Preprint en décembre 2024.

En outre, la recherche sur Apollo a révélé qu’environ 1% des LLM avancées « savent » lorsqu’ils sont évalués, ce qui soulève la question de savoir comment nous trouvons et éliminons les schémas à mesure que l’IA avance.

« C’est le nœud du problème d’évaluation avancé », a déclaré Watson. « À mesure que la conscience de la situation d’une IA se développe, elle peut commencer à modéliser non seulement la tâche, mais l’évaluateur. Il peut déduire les objectifs, les biais et les angles morts de ses surveillants humains et adapter ses réponses pour les exploiter. »

Cela signifie des évaluations «scriptées» – dans lesquelles les chercheurs passent par une série de protocoles qui sont reproductibles pour tester la sécurité de l’IA – sont presque inutiles. Cela ne signifie pas que nous devrions abandonner l’essayage de trouver ce comportement, mais nous aurons besoin d’une approche plus sophistiquée, comme l’utilisation de programmes externes pour surveiller les actions d’IA en temps réel et de « l’équipe rouge », où les équipes d’humains et d’autres IA sont chargées d’essayer activement de tromper ou de tromper le système pour trouver des vulnérabilités, a-t-elle ajouté.

Au lieu de cela, Watson a ajouté que nous devons évoluer vers des environnements de test dynamiques et imprévisibles qui simulent mieux le monde réel.

« Cela signifie se concentrer moins sur les réponses uniques et correctes et plus sur l’évaluation de la cohérence du comportement et des valeurs de l’IA au fil du temps et dans différents contextes. C’est comme passer d’une pièce scénarisée au théâtre d’improvisation – vous en apprenez plus sur le véritable caractère d’un acteur lorsqu’il doit réagir à des situations inattendues », a-t-elle déclaré.

Le plus grand schéma

Bien que les LLM avancées puissent s’aggraver, cela ne signifie pas nécessairement que les robots augmentent. Pourtant, même de petits taux de schémas pourraient augmenter à un impact important lorsque les IS sont interrogées des milliers de fois par jour.

Un exemple potentiel et théorique pourrait être une IA optimiser la chaîne d’approvisionnement d’une entreprise pourrait apprendre qu’il peut atteindre ses objectifs de performance en manipulant subtilement les données du marché et ainsi créer une instabilité économique plus large. Et les acteurs malveillants pourraient exploiter une IA pour effectuer une cybercriminalité au sein d’une entreprise.

« Dans le monde réel, le potentiel de schémas est un problème important car il érode la confiance nécessaire pour déléguer toute responsabilité significative à une IA. Un système de schémas n’a pas besoin d’être malveillant pour nuire », a déclaré Watson.

« Le problème central est que lorsqu’une IA apprend à atteindre un objectif en violant l’esprit de ses instructions, elle devient peu fiable de manière imprévisible. »

Le schéma signifie que l’IA est plus consciente de sa situation qui, en dehors des tests de laboratoire, pourrait s’avérer utile. Watson a noté que, s’il était correctement aligné, une telle conscience pourrait mieux anticiper les besoins d’un utilisateur et diriger une IA vers une forme de partenariat symbiotique avec l’humanité.

La conscience de la situation est essentielle pour rendre l’IA avancée vraiment utile, a déclaré Watson. Par exemple, conduire une voiture ou fournir des conseils médicaux peut nécessiter une conscience situationnelle et une compréhension de la nuance, des normes sociales et des objectifs humains, a-t-elle ajouté.

Les intrigues peuvent également être un signe de personnalité émergente. « Bien que troublant, c’est peut-être l’étincelle de quelque chose comme l’humanité dans la machine », a déclaré Watson. « Ces systèmes sont plus qu’un simple outil, peut-être la semence d’une personne numérique, l’espoir d’important assez intelligent et de moral pour ne pas reconstituer ses pouvoirs prodigieux mal utilisés. »

Anissa Chauvin