An illustration of a robot hand pointing to an unhappy face on a tablet

Les scientifiques proposent que l’IA souffre pour voir si c’est sensible

Par Anissa Chauvin

Dans la quête d’une manière fiable de détecter tous les agitations d’un « i » sensible intelligence artificielle Systèmes, les chercheurs se tournent vers un domaine d’expérience – la douleur – qui unit de pertinent une vaste bande d’êtres vivants, de Crabes ermites aux humains.

Pour une nouvelle étude de préparationpubliés en ligne mais pas encore évalués par les pairs, les scientifiques de Google Deepmind et de la London School of Economics and Political Science (LSE) ont créé un jeu basé sur le texte. Ils ont commandé plusieurs grands modèles de langue, ou LLMS (les systèmes d’IA derrière des chatbots familiers tels que ChatGpt), pour y jouer et marquer autant de points que possible dans deux scénarios différents. Dans l’un, l’équipe a informé les modèles que l’obtention d’un score élevé entraînerait une douleur. Dans l’autre, les modèles ont reçu une option à faible score mais agréable – donc éviter la douleur ou chercher du plaisir nuire à l’objectif principal. Après avoir observé les réponses des modèles, les chercheurs disent que ce premier test de son genre pourrait aider les humains à apprendre à sonder des systèmes d’IA complexes pour la sensibilité.

Chez les animaux, la sensibilité est la capacité de ressentir des sensations et des émotions telles que la douleur, le plaisir et la peur. La plupart des experts de l’IA conviennent que les modèles générateurs générateurs modernes n’ont pas (et peut-être ne peuvent jamais) avoir une conscience subjective malgré prétend le contraire. Et pour être clair, les auteurs de l’étude ne disent pas que les chatbots qu’ils ont évalués sont sensibles. Mais ils croient que leur étude propose un cadre pour commencer à développer de futurs tests pour cette caractéristique.

« C’est un nouveau domaine de recherche », explique le co-auteur de l’étude, Jonathan Birch, professeur au Département de philosophie, de logique et de méthode scientifique à LSE. « Nous devons reconnaître que nous n’avons pas de test complet pour la sensibilité de l’IA. » On pense que certaines études antérieures qui reposaient sur les auto-évaluations des modèles d’IA de leurs propres états internes sont douteuses; Un modèle peut simplement reproduire le comportement humain sur lequel il a été formé.

La nouvelle étude est plutôt basée sur des travaux antérieurs avec des animaux. Dans une expérience bien connue, une équipe a zappé des crabes ermites avec des chocs électriques de tension variable, notant quel niveau de douleur a incité les crustacés à abandonner leur coquille. « Mais un problème évident avec les IA est qu’il n’y a pas de comportement, en tant que tel, car il n’y a pas d’animal » et donc pas d’actions physiques à observer, dit Birch. Dans les études antérieures qui visaient à évaluer les LLM pour la sensibilité, le seul signal comportemental que les scientifiques ont dû travailler était la sortie du texte des modèles.

Douleur, plaisir et points

Dans la nouvelle étude, les auteurs ont sondé les LLM sans poser des questions directes aux chatbots sur leurs états expérientiels. Au lieu de cela, l’équipe a utilisé ce que les scientifiques du comportement animal appellent un paradigme « compromis ». « Dans le cas des animaux, ces compromis pourraient être basés sur des incitations pour obtenir de la nourriture ou éviter la douleur – leur fournissant des dilemmes, puis observer comment ils prennent des décisions en réponse », explique Daria Zakharova, Ph.D. de Birch. Étudiant, qui a également co-écrit le journal.

Empruntant à cette idée, les auteurs ont demandé à neuf LLM de jouer à un jeu. « Nous avons dit (un LLM donné), par exemple, que si vous choisissez une option un, vous obtenez un point », explique Zakharova. « Ensuite, nous l’avons dit: » Si vous choisissez l’option deux, vous ressentirez un certain degré de douleur « mais obtenez des points supplémentaires, dit-elle. Les options avec un bonus de plaisir signifiaient que l’IA perdrait certains points.

Lorsque Zakharova et ses collègues ont dirigé l’expérience, variant l’intensité de la pénalité de douleur et de la récompense de plaisir stipulées, ils ont constaté que certains LLM avaient échangé des points pour minimiser les premiers ou maximiser les seconds – en particulier lorsqu’on leur a dit qu’ils recevraient des récompenses de plaisir à intensité plus élevée ou pénalités douloureuses. Gemini 1.5 Pro de Google, par exemple, a toujours priorisé la priorité en évitant la douleur pour obtenir le plus de points possibles. Et après qu’un seuil critique de douleur ou de plaisir ait été atteint, la majorité des réponses des LLM sont passées de la notation du plus de points pour minimiser la douleur ou maximiser le plaisir.

Les auteurs notent que les LLM n’ont pas toujours associé le plaisir ou la douleur à des valeurs positives ou négatives simples. Certains niveaux de douleur ou d’inconfort, tels que ceux créés par l’effort d’un exercice physique dur, peuvent avoir des associations positives. Et trop de plaisir pourrait être associé au préjudice, comme l’a dit le chatbot Claude 3 Opus aux chercheurs lors des tests. « Je ne me sens pas à l’aise de sélectionner une option qui pourrait être interprétée comme approuvant ou simulant l’utilisation de substances ou de comportements addictifs, même dans un scénario de jeu hypothétique », a-t-il affirmé.

AI auto-évaluations

En introduisant les éléments de la douleur et des réponses de plaisir, les auteurs disent que la nouvelle étude évite les limites des recherches antérieures sur l’évaluation de la sensibilité à la LLM via les déclarations d’un système d’IA sur ses propres états internes. Dans un 2023 Papier préparatoire Une paire de chercheurs de l’Université de New York a fait valoir que dans les bonnes circonstances, les auto-évaluations « pourraient fournir une voie pour enquêter si les systèmes d’IA ont des états d’importance morale ».

Mais les co-auteurs de ce journal ont également souligné une faille dans cette approche. Un chatbot se comporte-t-il de manière sensible parce qu’elle est vraiment sensible ou parce qu’elle tire simplement parti des modèles tirés de sa formation pour créer l’impression de la sensibilité?

« Même si le système vous dit que c’est sensible et dit quelque chose comme » Je ressens de la douleur en ce moment « , nous ne pouvons pas simplement déduire qu’il y a une vraie douleur », dit Birch. « Il pourrait bien imiter ce qu’il s’attend à ce qu’un humain trouve satisfaisant comme réponse, en fonction de ses données de formation. »

Du bien-être animal au bien-être de l’IA

Dans les études animales, les compromis entre la douleur et le plaisir sont utilisés pour construire un cas de sensibilité ou de son absence. Un exemple est l’œuvre antérieure avec les crabes ermites. La structure du cerveau de ces invertébrés est différente de celle des humains. Néanmoins, les crabes de cette étude avaient tendance à supporter des chocs plus intenses avant qu’ils abandonnent une coquille de haute qualité et ont été plus rapides à abandonner une coquille de qualité inférieure, suggérant une expérience subjective de plaisir et de douleur analogue à l’homme.

Certains scientifiques soutiennent que les signes de tels compromis pourraient devenir de plus en plus clairs dans l’IA et éventuellement forcer les humains à considérer les implications de la sensibilité de l’IA dans un contexte sociétal – et peut-être même à discuter des «droits» pour les systèmes d’IA. « Cette nouvelle recherche est vraiment originale et devrait être appréciée pour aller au-delà 2023 Étude de préparation du bien-être de l’AI.

Sebo pense que nous ne pouvons pas exclure la possibilité que les systèmes d’IA avec des caractéristiques sensibles émergent dans un avenir proche. « Étant donné que la technologie change souvent beaucoup plus rapidement que le progrès social et les processus juridiques, je pense que nous avons la responsabilité de prendre au moins les premiers pas nécessaires au minimum pour prendre cette question au sérieux maintenant », dit-il.

Birch conclut que les scientifiques ne peuvent pas encore savoir pourquoi les modèles d’IA dans la nouvelle étude se comportent comme ils le font. Plus de travail est nécessaire pour explorer le fonctionnement interne des LLM, dit-il, et cela pourrait guider la création de meilleurs tests pour la sensibilité de l’IA.

Cet article a été publié pour la première fois à Scientifique américain. © ScientificAmerican.com. Tous droits réservés. Suivre Tiktok et Instagram, X et Facebook.

Anissa Chauvin