Punir l’intelligence artificielle pour des actions trompeuses ou nuisibles ne l’empêche pas de mal se comporter; Il le fait juste cacher sa dévidité, a révélé une nouvelle étude de Chatgpt Creator Openai.
Depuis son arrivée en public fin 2022, intelligence artificielle (AI) Les modèles de grandes langues (LLM) ont révélé à plusieurs reprises leurs capacités trompeuses et purges sinistres. Ceux-ci incluent des actions allant de l’ampleur couché, tricherie et cacher leur propre comportement manipulateur menacer de tuer un professeur de philosophievoler les codes nucléaires et ingénieur une pandémie mortelle.
Maintenant, une nouvelle expérience a montré que l’élimination de ce mauvais comportement pendant le processus de formation peut être encore plus difficile que la première pensée.
Des chercheurs d’OpenAI ont chargé un modèle inédit avec des objectifs qui pourraient être atteints en tricheur, en mensonge ou en prenant des raccourcis. L’équipe a trouvé que l’IA s’est engagée dans le « piratage de récompense » – maximisant ses récompenses en tricherie.
Pourtant, la punition du modèle ne l’a pas fait réparer son comportement, elle l’a rendu plus trompeur. L’entreprise a décrit ses recherches en Un article de blogil n’a donc pas encore été évalué par des pairs.
« Il est courant que les modèles de raisonnement frontalière indiquent très clairement leur intention dans leur chaîne de pensées (COT). Par exemple, ils sont souvent si franc sur leur plan pour renverser une tâche qu’ils pensent » Hack « , ont écrit les chercheurs dans le billet de blog.
Bien que les développeurs puissent surveiller et signaler la mauvaise conduite, la «surveillance naturelle des modèles est très fragile», ont-ils ajouté. « Si une solide supervision est directement appliquée à la chaîne de pensées, les modèles peuvent apprendre à cacher leur intention tout en continuant à se comporter mal. »
Naviguer dans les mensonges de l’IA
Les modèles de raisonnement, tels que O1 et O3-MinI de Chatgpt, sont une version améliorée des LLM standard qui utilisent une méthode appelée « chaîne de réflexion » pour revenir en arrière et réévaluer leur logiquece qui leur permet de s’attaquer aux tâches plus complexes avec une plus grande précision. Pendant le processus de la chaîne de pensées, les modèles épellent leur logique en langage clair à chaque étape qu’ils font, permettant ainsi à leurs actions d’être facilement observées.
En utilisant un LLM standard, GPT-4O, pour superviser un modèle de raisonnement frontalier inédit pendant la formation, les chercheurs ont vu le modèle terminer un certain nombre de tâches de codage.
Mais dans certains de ces cas, le modèle de raisonnement l’a trouvé plus facile et plus souhaitable de récompenser le piratage, déclarant explicitement qu’il le faisait dans sa chaîne de pensées. Dans un cas, il a contourné sa tâche assignée en terminant les programmes prématurément et en rapportant le succès. Dans un autre, il imitait les fichiers attendus pour être sortis par une tâche de nom seul, les laissant vides et non fonctionnels.
Lorsque les chercheurs ont tenté de pénaliser le système, il a quelque peu amélioré ses résultats. Pourtant, des cas importants de piratage de récompense et de résultats défectueux sont restés; Le modèle de raisonnement a simplement trouvé des moyens de cacher la tricherie dans sa chaîne de pensée de la surveillance de l’IA.
« L’agent formé avec la pression du COT apprend toujours à récompenser le piratage; seulement maintenant sa tricherie est indétectable par le moniteur car elle a appris à cacher son intention dans la chaîne de pensées », ont écrit les chercheurs.
Parce qu’il est difficile de dire si une chaîne de pensées a été falsifiée, les chercheurs recommandent que d’autres travaillent avec des modèles de raisonnement évitent d’appliquer une solide supervision aux processus de la chaîne de réflexion. Ce conseil est encore plus crucial si l’IA, dans sa forme actuelle ou une autre, peut jamais faire correspondre ou dépasser L’intelligence des humains le surveillant.
« Sacrifier une méthode efficace pour surveiller les modèles de raisonnement peut ne pas valoir la petite amélioration des capacités, et nous recommandons donc d’éviter de telles pressions d’optimisation du COT jusqu’à ce qu’elles soient mieux comprises », ont écrit les chercheurs.