Evil robot/rogue AI concept.

L’IA pourrait bientôt penser d’une manière que nous ne comprenons même pas – échapper à nos efforts pour le garder aligné – les meilleurs scientifiques de l’IA avertissent

Par Anissa Chauvin

Chercheurs derrière certains des plus avancés intelligence artificielle (IA) sur la planète a averti que les systèmes qu’ils aidaient à créer pourraient présenter un risque pour l’humanité.

Les chercheurs, qui travaillent dans des entreprises comme Google Deepmind, Openai, Meta, Anthropic et autres, soutiennent qu’un manque de surveillance sur les processus de raisonnement et de prise de décision de l’IA pourrait signifier que nous manquons des signes de comportement malin.

Dans la nouvelle étude, publiée le 15 juillet au arxiv Préprint Server (qui n’a pas été évalué par des pairs), les chercheurs mettent en évidence les chaînes de pensée (COT) – les modèles de grande langue (LLMS) étapes prennent des problèmes complexes. Les modèles AI utilisent des COTS pour décomposer les requêtes avancées en étapes logiques intermédiaires qui sont exprimées en langage naturel.

Les auteurs de l’étude soutiennent que la surveillance de chaque étape du processus pourrait être une couche cruciale pour établir et maintenir la sécurité de l’IA.

La surveillance de ce processus de COT peut aider les chercheurs à comprendre comment les LLM prennent des décisions et, plus important encore, pourquoi ils sont mal alignés des intérêts de l’humanité. Il aide également à déterminer pourquoi ils donnent des sorties basées sur des données fausses ou qui n’existent pas, ou pourquoi ils nous induisent en erreur.

Cependant, il existe plusieurs limites lors de la surveillance de ce processus de raisonnement, ce qui signifie que un tel comportement pourrait potentiellement passer les mailles du filet.

« Les systèmes d’IA qui« pensent »dans le langage humain offrent une opportunité unique pour la sécurité de l’IA», ont écrit les scientifiques dans l’étude. « Nous pouvons surveiller leurs chaînes de réflexion à l’intention de se comporter mal. Comme toutes les autres méthodes de surveillance de l’IA connues, la surveillance du COT est imparfaite et permet à une mauvaise conduite de passer inaperçue. »

Les scientifiques ont averti que le raisonnement ne se produit pas toujours, il ne peut donc pas toujours être surveillé, et un raisonnement se produit sans que les opérateurs humains ne le sachent même. Il pourrait également y avoir du raisonnement que les opérateurs humains ne comprennent pas.

Garder un œil vigilant sur les systèmes d’IA

L’un des problèmes est que des modèles conventionnels non relâchés comme K-means ou DBSCAN – utilisent une correspondance sophistiquée de modèles générés à partir de jeux de données massifs, afin qu’ils ne comptent pas du tout sur des lits du tout. Les nouveaux modèles de raisonnement comme Google de Google ou Chatgpt, quant à eux, sont capables de décomposer les problèmes en étapes intermédiaires pour générer des solutions – mais n’ont pas toujours besoin de le faire pour obtenir une réponse. Il n’y a pas non plus de garantie que les modèles rendront les lits visibles pour les utilisateurs humains même s’ils prennent ces mesures, ont noté les chercheurs.

« La propriété de raisonnement externalisé ne garantit pas la surveillance – il indique seulement qu’un raisonnement apparaît dans la chaîne de pensée, mais il peut y avoir un autre raisonnement pertinent qui ne fait pas », ont déclaré les scientifiques. « Il est donc possible que même pour les tâches dures, la chaîne de pensée ne contient un raisonnement d’apparence bénigne que tandis que le raisonnement incriminant est caché. » Un autre problème est que les COT ne peuvent même pas être compréhensibles par les humains, ont déclaré les scientifiques. « 

De nouveaux LLM plus puissants peuvent évoluer au point où les COTS ne sont pas aussi nécessaires. Les futurs modèles pourraient également être en mesure de détecter que leur lit de lit est supervisé et de cacher un mauvais comportement.

Pour éviter cela, les auteurs ont suggéré diverses mesures pour mettre en œuvre et renforcer la surveillance du COT et améliorer la transparence de l’IA. Il s’agit notamment d’utiliser d’autres modèles pour évaluer les processus de COT d’un LLMS et même jouer dans un rôle contradictoire contre un modèle essayant de cacher un comportement mal aligné. Ce que les auteurs ne spécifient pas dans l’article, c’est comment ils garantiraient que les modèles de surveillance éviteraient également de devenir mal alignés.

Ils ont également suggéré que les développeurs d’IA continuent d’affiner et de standardiser les méthodes de surveillance du COT, incluent la surveillance des résultats et des initiatives dans les cartes système LLMS (essentiellement un manuel d’un modèle) et examinent l’effet des nouvelles méthodes de formation sur la surveillance.

« La surveillance du COT présente un ajout précieux aux mesures de sécurité pour l’IA frontalière, offrant un aperçu rare de la façon dont les agents de l’IA prennent des décisions », ont déclaré les scientifiques dans l’étude. « Pourtant, il n’y a aucune garantie que le degré de visibilité actuel persistera. Nous encourageons la communauté de recherche et les développeurs d’IA frontaliers à utiliser au mieux la surveillance du COT et à étudier comment il peut être préservé. »

Anissa Chauvin