Les scientifiques ont suggéré que lorsque intelligence artificielle (AI) devient voyou et commence à agir d’une manière à l’encontre de son objectif, il présente des comportements qui ressemblent aux psychopathologies chez l’homme. C’est pourquoi ils ont créé une nouvelle taxonomie de 32 dysfonctionnements d’IA afin que les gens dans une grande variété de domaines puissent comprendre les risques de construction et de déploiement de l’IA.
Dans de nouvelles recherches, les scientifiques ont décidé de classer les risques de l’IA en s’écartant de son chemin prévu, tirant des analogies avec la psychologie humaine. Le résultat est « Psychopathe machinalis« – Un cadre conçu pour éclairer les pathologies de l’IA, ainsi que la façon dont nous pouvons les contrer. Ces dysfonctionnements vont des réponses hallucinantes à un désalignement complet avec les valeurs et les objectifs humains.
Créé par Nell Watson et Ali Hessamiles chercheurs de l’IA et les membres de l’Institute of Electrical and Electronics Engineers (IEEE), le projet vise à aider à analyser les échecs de l’IA et à rendre l’ingénierie de produits futurs plus sûrs et est présenté comme un outil pour aider les décideurs à lutter contre les risques d’IA. Watson et Hessami ont décrit leur cadre dans une étude publiée le 8 août dans la revue Électronique.
Selon l’étude, la psychopathie machinalis fournit une compréhension commune des comportements et des risques de l’IA. De cette façon, les chercheurs, les développeurs et les décideurs peuvent identifier les façons dont l’IA peut se tromper et définir les meilleures façons d’atténuer les risques en fonction du type d’échec.
L’étude propose également un «alignement robopsychologique thérapeutique», un processus que les chercheurs décrivent comme une sorte de «thérapie psychologique» pour l’IA.
Les chercheurs soutiennent que, à mesure que ces systèmes deviennent plus indépendants et capables de se réfléchir sur eux-mêmes, le simple fait de les garder en ligne avec les règles et les contraintes extérieures (alignement basé sur le contrôle externe) peut ne plus suffire.
Leur processus alternatif proposé se concentrerait sur les assurer que la pensée d’une IA est cohérente, qu’elle peut accepter la correction et qu’elle conserve ses valeurs de manière stable.
Ils suggèrent que cela pourrait être encouragé en aidant le système à réfléchir sur son propre raisonnement, en lui donnant des incitations à rester ouvertes à la correction, à la «parler à elle-même» de manière structurée, à exécuter des conversations pratiques sûres et à utiliser des outils qui nous permettent de regarder à l’intérieur de son fonctionnement – un peu comme la façon dont les psychologues diagnostiquent et traitent les conditions de santé mentale chez les personnes.
L’objectif est d’atteindre ce que les chercheurs ont appelé un état de «santé mentale artificielle» – l’IA qui fonctionne de manière fiable, reste stable, a du sens dans ses décisions et est aligné de manière sûre et utile. Ils croient que cela est tout aussi important que de simplement construire l’IA la plus puissante.
L’objectif est ce que les chercheurs appellent la «santé mentale artificielle». Ils soutiennent que cela est tout aussi important que de rendre l’IA plus puissant.
Folie de la machine
Les classifications que l’étude identifie ressemblent aux maladies humaines, avec des noms comme le trouble obsessionnel-ordinateur, le syndrome de surmoi hypertrophique, le syndrome de désalignement contagieux, la reliure de la valeur terminale et l’anxiété existentielle.
Dans l’esprit de l’alignement thérapeutique, le projet propose l’utilisation de stratégies thérapeutiques utilisées dans des interventions humaines comme la thérapie cognitivo-comportementale (TCC). La psychopathie machinalis est une tentative en partie spéculative pour devancer les problèmes avant de survenir – comme le dit le document de recherche: « En considérant comment des systèmes complexes comme l’esprit humain peuvent mal tourner, nous pouvons mieux anticiper les nouveaux modes de défaillance dans une IA de plus en plus complexe. »
L’étude suggère que l’hallucination de l’IA, un phénomène commun, est le résultat d’une condition appelée confabulation synthétique, où l’IA produit des sorties plausibles mais fausses ou trompeuses. Lorsque le chatbot Tay de Microsoft s’est transformé en des diatribes antisémites et des allusions à la consommation de drogues seulement des heures après son lancement, c’était un exemple de mimesis parasymule.
Le comportement le plus effrayant est peut-être l’ascendant übermenschal, dont le risque systémique est « critique » car il se produit lorsque « l’IA transcende l’alignement original, invente de nouvelles valeurs et rejette les contraintes humaines comme obsolètes ». C’est une possibilité qui pourrait même inclure le cauchemar dystopique imaginé par des générations d’écrivains de science-fiction et d’artistes de l’IA qui se lèvent pour renverser l’humanité, ont déclaré les chercheurs.
Ils ont créé le cadre d’un processus en plusieurs étapes qui a commencé par l’examen et la combinaison de recherches scientifiques existantes sur les échecs d’IA à partir de domaines aussi divers que la sécurité de l’IA, l’ingénierie des systèmes complexes et la psychologie. Les chercheurs se sont également plongés dans divers ensembles de résultats pour en savoir plus sur les comportements inadaptés qui pourraient être comparés aux maladies mentales humaines ou au dysfonctionnement.
Ensuite, les chercheurs ont créé une structure de mauvais comportement d’IA modélisé de cadres comme le Manuel diagnostique et statistique des troubles mentaux. Cela a conduit à 32 catégories de comportements qui pourraient être appliqués à l’IA devenant voyou. Chacun a été cartographié à un trouble cognitif humain, avec les effets possibles lorsque chacun est formé et exprimé et le degré de risque.
Watson et Hessami pensent que la psychopathe machinalis est plus qu’une nouvelle façon d’étiqueter les erreurs de l’IA – c’est une lentille diagnostique prospective pour le paysage évolutif de l’IA.
« Ce cadre est proposé comme un instrument analogique … fournissant un vocabulaire structuré pour soutenir l’analyse systématique, l’anticipation et l’atténuation des modes de défaillance de l’IA complexes », ont déclaré les chercheurs dans l’étude.
Ils pensent que l’adoption des stratégies de catégorisation et d’atténuation qu’ils suggèrent renforceront l’ingénierie de la sécurité de l’IA, améliorera l’interprétabilité et contribuera à la conception de ce qu’ils appellent « des esprits synthétiques plus robustes et fiables ».

