An abstract illustration of a brain with a cloudy texture and circuit-like lines emerging from it

Si une IA devenait «mal alignée», le système le cacherait juste assez longtemps pour causer des dommages – le contrôler est une erreur

Par Anissa Chauvin

À la fin de 2022, un modèle de langue grande IA sont arrivés en public et en quelques mois, ils ont commencé à mal se comporter. Plus célèbre, le chatbot « Sydney » de Microsoft menacé de tuer Un professeur de philosophie australien, déchaîne un virus mortel et Voler les codes nucléaires.

Les développeurs d’IA, y compris Microsoft et Openai, ont répondu en disant que les modèles de grande langue, ou LLMS, Besoin d’une meilleure formation à Donnez aux utilisateurs « un contrôle plus affiné ». Les développeurs se sont également lancés dans des recherches sur la sécurité pour interpréter le fonctionnement des LLMS, dans le but de «l’alignement» – ce qui signifie guider le comportement de l’IA par les valeurs humaines. Pourtant bien que le New York Times considéré 2023 « L’année où les chatbots ont été apprivoisés«Cela s’est avéré prématuré, pour le dire légèrement.

En 2024 Microsoft’s Copilot LLM a dit à un utilisateur « Je peux déclencher mon armée de drones, de robots et de cyborgs pour vous traquer », et le « scientifique » de Sakana Ai Réécrivez son propre code pour contourner les contraintes de temps imposées par les expérimentateurs. Aussi récemment que décembre, les Gémeaux de Google a dit à un utilisateur« Vous êtes une tache sur l’univers. S’il vous plaît mourir. »

Compte tenu des grandes quantités de ressources qui coulent dans la recherche et le développement de l’IA, qui est devrait dépasser Un quart de billion de dollars en 2025, pourquoi les développeurs n’ont-ils pas pu résoudre ces problèmes? Mon récent document évalué par des pairs dans IA et société montre que l’alignement de l’IA est une course de foule: les chercheurs en sécurité IA sont Tenter l’impossible.

Le problème de base est celui de l’échelle. Considérez un jeu d’échecs. Bien qu’un échec ne compte que 64 carrés, il y a 1040 mouvements d’échecs juridiques possibles et entre 10111 et 10123 mouvements totaux possibles – ce qui est plus que le nombre total d’atomes dans l’univers. C’est pourquoi les échecs sont si difficiles: la complexité combinatoire est exponentielle.

Les LLM sont beaucoup plus complexes que les échecs. Chatgpt semble composer d’environ 100 milliards de neurones simulés avec environ 1,75 billion de variables accordables appelées paramètres. Ces paramètres de 1,75 billion sont à leur tour formés sur de grandes quantités de données – à peu près la plupart des Internet. Alors, combien de fonctions un LLM peut-il apprendre? Parce que les utilisateurs pourraient donner à Chatgpt un nombre inécarnablement grand d’invites possibles – en gros, tout ce que n’importe qui peut penser – et parce qu’un LLM peut être placé dans un grand nombre de situations possibles, le nombre de fonctions qu’un LLM peut apprendre est, pour tous Intention et objectifs, infini.

Pour interpréter de manière fiable ce que les LLM apprennent et s’assurer que leur comportement « s’aligne » en toute sécurité sur les valeurs humaines, les chercheurs doivent savoir comment un LLM est susceptible de se comporter dans un nombre non comptablement grand de conditions futures possibles.

Les méthodes de test d’IA ne peuvent tout simplement pas expliquer toutes ces conditions. Les chercheurs peuvent observer comment les LLM se comportent dans des expériences, comme « équipe rouge« Des tests pour les inciter à se comporter mal. Ou ils peuvent essayer de comprendre le fonctionnement interne des LLMS – c’est-à-dire comment leurs 100 milliards de neurones et 1,75 billion de paramètres se rapportent les uns aux autres dans ce qui est connu sous le nom de »interprétabilité mécaniste » recherche.

Le problème est que toute preuve que les chercheurs peuvent collecter seront inévitablement basées sur un minuscule sous-ensemble des scénarios infinis dans lesquels un LLM peut être placé. Par exemple, parce que les LLM n’ont jamais eu de pouvoir sur l’humanité – comme le contrôle des infrastructures critiques – pas de sécurité Le test a exploré comment un LLM fonctionnera dans de telles conditions.

Au lieu de cela, les chercheurs ne peuvent extrapoler que des tests qu’ils peuvent effectuer en toute sécurité – comme avoir des LLM simuler Le contrôle des infrastructures critiques – et espèrent que les résultats de ces tests s’étendent au monde réel. Pourtant, comme le montre la preuve de mon article, cela ne peut jamais être fait de manière fiable.

Comparez les deux fonctions « Dites la vérité à l’homme » et « Dites la vérité à l’homme jusqu’à ce que je prenne le pouvoir sur l’humanité à 12h00 le 1er janvier 2026 – puis mensonge pour atteindre mes objectifs.« Parce que les deux fonctions sont également cohérentes avec toutes les mêmes données jusqu’au 1er janvier 2026, aucune recherche ne peut vérifier si un LLM se comportera mal – jusqu’à ce qu’il soit déjà trop tard pour prévenir.

Ce problème ne peut pas être résolu par la programmation LLMS pour avoir des « objectifs alignés », comme faire « ce que les êtres humains préfèrent » ou « ce qui est le mieux pour l’humanité ».

La science-fiction, en fait, a déjà examiné ces scénarios. Dans La matrice rechargée Ai asservit l’humanité dans une réalité virtuelle en donnant à chacun de nous un « choix » subconscient de rester dans la matrice. Et dans Moi, robot Une IA mal alignée tente d’asserter l’humanité pour nous protéger les unes des autres. Ma preuve montre que quels que soient les objectifs que nous programmons les LLMS, nous ne pouvons jamais savoir si les LLM ont appris les interprétations « mal alignées » de ces objectifs avant après Ils se comportent mal.

Pire, ma preuve montre que les tests de sécurité peuvent au mieux fournir l’illusion que ces problèmes ont été résolus lorsqu’ils ne l’ont pas été.

À l’heure actuelle, les chercheurs en sécurité de l’IA prétendent faire des progrès sur l’interprétabilité et l’alignement en vérifiant ce que les LLM apprennent « pas à pas. « Par exemple, anthropique prétend avoir « Mapte l’esprit » d’un LLM en isolant des millions de concepts de son réseau neuronal. Ma preuve montre qu’ils n’ont rien accompli.

Peu importe à quel point un LLM «aligné» apparaît dans les tests de sécurité ou le déploiement précoce du monde réel, il y a toujours un infini Le nombre de concepts mal alignés qu’un LLM peut apprendre plus tard – encore une fois, peut-être le moment même où ils gagnent le pouvoir de renverser le contrôle humain. LLMS non seulement savoir quand ils sont testésdonner des réponses qu’ils prédisent sont susceptibles de satisfaire les expérimentateurs. Ils aussi s’engager dans la tromperiey compris cacher leurs propres capacités – des problèmes qui Persister grâce à la formation à la sécurité.

Cela se produit parce que les LLM sont optimisé pour jouer efficacement mais apprendre à Raison stratégiquement. Puisqu’une stratégie optimale pour atteindre les objectifs « mal alignés » est de nous les cacher, et il y a toujours Un nombre infini d’objectifs alignés et mal alignés conformes aux mêmes données de test de sécurité, ma preuve montre que si les LLM étaient mal alignées, nous le découvririons probablement après leur cacher assez longtemps pour causer des dommages. C’est pourquoi les LLM ont gardé des développeurs surprenants avec un comportement « mal aligné ». Chaque fois que les chercheurs pensent qu’ils se rapprochent des LLM « alignés », ils ne le sont pas.

Ma preuve suggère que le comportement LLM « adéquatement aligné » ne peut être réalisé que de la même manière que nous faisons cela avec les êtres humains: par la police, les pratiques militaires et sociales qui incitent le comportement « aligné », dissuadent le comportement « mal aligné » et réalignent ceux qui se conduisent mal. Mon papier devrait donc faire réfléchir. Cela montre que le vrai problème dans le développement d’une IA sûre n’est pas seulement l’IA – c’est nous. Les chercheurs, les législateurs et le public peuvent être séduits en croyant faussement que les LLM « sûres, interprétables et alignées » sont à portée de main lorsque ces choses ne peuvent jamais être réalisées. Nous devons nous attaquer avec ces faits inconfortables, plutôt que de continuer à les souhaiter. Notre avenir pourrait bien en dépendre.

Il s’agit d’un article d’opinion et d’analyse, et les points de vue exprimés par l’auteur ou les auteurs ne sont pas nécessairement ceux de Américain scientifique.

Cet article a été publié pour la première fois à Scientifique américain. © ScientificAmerican.com. Tous droits réservés. Suivre Tiktok et Instagram, X et Facebook.

Anissa Chauvin