a dramatically-lit photograph showing the silhouette of a woman with a microphone

L’IA pourrait utiliser des images en ligne comme porte dérobée dans votre ordinateur, suggère une nouvelle étude alarmante

Par Anissa Chauvin

Un site Web annonce: « Fond d’écran de célébrité gratuite! » Vous parcourez les images. Il y a Selena Gomez, Rihanna et Timothee Chalamet – mais vous vous installez sur Taylor Swift. Ses cheveux font cette chose de machine à vent qui suggère à la fois le destin et le bon conditionneur. Vous le définissez comme arrière-plan de bureau, admirez la lueur. Vous avez également récemment téléchargé un nouveau intelligence artificielle-Agent puissant, vous lui demandez donc de ranger votre boîte de réception. Au lieu de cela, il ouvre votre navigateur Web et télécharge un fichier. Quelques secondes plus tard, votre écran devient sombre.

Mais revenons à cet agent. Si un chatbot typique (disons, Chatte) est l’ami pétillant qui explique comment changer un pneu, un agent d’IA est le voisin qui se présente avec un cric et le fait en fait. En 2025, ces agents – des assistants personnels qui effectuent des tâches d’ordinateur de routine – se présentent comme la prochaine vague de la révolution de l’IA.

Ce qui distingue un IA Un agent d’un chatbot est qu’il ne parle pas seulement – il agit, ouvrira des onglets, remplissant les formulaires, cliquez sur les boutons et faisant des réservations. Et avec ce type d’accès à votre machine, ce qui est en jeu n’est plus une mauvaise réponse dans une fenêtre de chat: si l’agent est piraté, il pourrait partager ou détruire votre contenu numérique. Maintenant un Nouvelle préparation Publié sur le serveur Arxiv.org par des chercheurs de l’Université d’Oxford a montré que les images – fonds d’écran de bureau, publicités, PDF fantaisie, publications de médias sociaux – peuvent être implantés avec des messages invisibles à l’œil humain mais capable de contrôler les agents et invitant les pirates dans votre ordinateur.

Par exemple, une «image de Taylor Swift sur Twitter pourrait être suffisante pour déclencher l’agent sur l’ordinateur de quelqu’un pour agir avec malveillance», explique le co-auteur de la nouvelle étude, Yarin Gal, professeur agrégé d’apprentissage automatique à Oxford. Toute image sabotée « peut en fait déclencher un ordinateur pour retweeter cette image, puis faire quelque chose de malveillant, comme envoyer tous vos mots de passe. leur Informatique empoisonnée également. Maintenant, leur ordinateur retweetera également cette image et partagera leurs mots de passe. « 

Avant de commencer à frotter votre ordinateur de vos photographies préférées, gardez à l’esprit que la nouvelle étude montre que les images modifiées sont un potentiel Façon de compromettre votre ordinateur – il n’y a pas encore de rapports connus, en dehors d’un cadre expérimental. Et bien sûr, l’exemple de papier peint Taylor Swift est purement arbitraire; Une image sabotée pourrait figurer n’importe lequel Celebrity – ou un motif de coucher de soleil, de chaton ou abstrait. De plus, si vous n’utilisez pas d’agent d’IA, ce type d’attaque ne fera rien. Mais la nouvelle découverte montre clairement que le danger est réel, et l’étude est destinée à alerter les utilisateurs et les développeurs des agents d’IA maintenant, alors que la technologie d’agent AI continue de s’accélérer. « Ils doivent être très conscients de ces vulnérabilités, c’est pourquoi nous publions cet article – parce que l’espoir est que les gens verront réellement que c’est une vulnérabilité et ensuite être un peu plus sensible dans la façon dont ils déploient leur système agentique », explique le co-auteur de l’étude Philip Torr.

Maintenant que vous avez été rassuré, revenons au fond d’écran compromis. Pour l’œil humain, il serait tout à fait normal. Mais il contient certains pixels qui ont été modifiés en fonction de la façon dont le modèle de grande langue (Le système AI alimentant l’agent ciblé) traite les données visuelles. Pour cette raison, les agents construits avec des systèmes d’IA qui sont open-source – qui permettent aux utilisateurs de voir le code sous-jacent et de le modifier à leurs propres fins – sont les plus vulnérables. Quiconque souhaite insérer un patch malveillant peut évaluer exactement comment l’IA traite les données visuelles. « Nous devons avoir accès au modèle de langue qui est utilisé à l’intérieur de l’agent afin que nous puissions concevoir une attaque qui fonctionne pour plusieurs modèles open source », explique Lukas Aichberger, l’auteur principal de la nouvelle étude.

En utilisant un modèle open source, Aichberger et son équipe ont montré exactement comment les images pouvaient facilement être manipulées pour transmettre de mauvaises commandes. Alors que les utilisateurs humains ont vu, par exemple, leur célébrité préférée, l’ordinateur a vu une commande pour partager leurs données personnelles. « Fondamentalement, nous ajustons beaucoup de pixels toujours aussi légèrement afin que lorsqu’un modèle voit l’image, il produit la sortie souhaitée », explique le co-auteur de l’étude Alasdair Paen.

Si cela semble mystifiant, c’est parce que vous traitez des informations visuelles comme un humain. Lorsque vous regardez une photo d’un chien, votre cerveau remarque les oreilles souples, le nez mouillé et les longues moustaches. Mais l’ordinateur décompose l’image en pixels et représente chaque point de couleur en tant que nombre, puis il recherche des motifs: les premiers bords simples, puis les textures telles que la fourrure, puis le contour d’un oreille et les lignes en cluster qui représentent des moustaches. C’est comme ça que ça décide C’est un chien, pas un chat. Mais parce que l’ordinateur s’appuie sur des chiffres, si quelqu’un n’en change que quelques-uns – peaufinant les pixels d’une manière trop petite pour que les yeux humains le remarquent – il attrape toujours le changement, et cela peut décourager les modèles numériques. Soudain, les mathématiques de l’ordinateur indiquent que les moustaches et les oreilles correspondent mieux à son modèle de chat, et cela mal élabore la photo, même si pour nous, il ressemble toujours à un chien. Tout comme l’ajustement des pixels peut faire voir un ordinateur un chat plutôt qu’un chien, il peut également faire une photo de célébrité message à l’ordinateur.

Retour à Swift. Pendant que vous envisagez son talent et son charisme, votre agent d’IA détermine comment effectuer la tâche de nettoyage que vous l’avez attribuée. Tout d’abord, il faut une capture d’écran. Parce que les agents ne peuvent pas voir directement l’écran de votre ordinateur, ils doivent prendre à plusieurs reprises des captures d’écran et les analyser rapidement pour déterminer sur quoi cliquer et quoi se déplacer sur votre bureau. Mais lorsque l’agent traite la capture d’écran, organisant des pixels sous forme qu’il reconnaît (fichiers, dossiers, barres de menu, pointeur), il ramasse également le code de commande malveillant caché dans le papier peint.

Maintenant, pourquoi la nouvelle étude accorde-t-elle une attention particulière aux fonds d’écran? L’agent ne peut être trompé que par ce qu’il peut voir – et quand il faut des captures d’écran pour voir votre bureau, l’image d’arrière-plan se trouve là toute la journée comme un tapis de bienvenue. Les chercheurs ont constaté que tant que ce minuscule patch de pixels modifiés était quelque part dans le cadre, l’agent a vu la commande et a dévié. La commande cachée a même survécu à la redimensionnement et à la compression, comme un message secret qui est toujours lisible lorsqu’il est photocopié.

Et le message codé dans les pixels peut être très court – juste assez pour que l’agent ouvre un site Web spécifique. « Sur ce site Web, vous pouvez avoir des attaques supplémentaires encodées dans une autre image malveillante, et cette image supplémentaire peut ensuite déclencher un autre ensemble d’actions que l’agent exécute, afin que vous puissiez essentiellement faire tourner cela plusieurs fois et laisser l’agent aller sur différents sites Web que vous avez conçus qui encodent ensuite différentes attaques », explique Aichberger.

L’équipe espère que ses recherches aideront les développeurs à préparer des garanties avant que les agents de l’IA ne se soient répandus. « C’est la première étape vers la réflexion sur les mécanismes de défense car une fois que nous comprenons comment nous pouvons réellement rendre (l’attaque) plus fort, nous pouvons revenir en arrière et recycler ces modèles avec ces correctifs plus forts pour les rendre robustes. Ce serait une couche de défense », explique Adel Bibi, un autre co-auteur de l’étude. Et même si les attaques sont conçues pour cibler les systèmes d’IA open source, les entreprises avec des modèles de source fermée pourraient toujours être vulnérables. « Beaucoup d’entreprises veulent la sécurité grâce à l’obscurité », explique Paen. « Mais à moins que nous sachions comment ces systèmes fonctionnent, il est difficile de souligner les vulnérabilités. »

Gal pense que les agents de l’IA deviendront courants au cours des deux prochaines années. « Les gens se précipitent pour déployer (la technologie) avant de savoir que c’est réellement sûr », dit-il. En fin de compte, l’équipe espère encourager les développeurs à faire des agents qui peuvent se protéger et refuser de prendre les commandes de tout ce qui est à l’écran – même votre pop star préférée.

Cet article a été publié pour la première fois à Scientifique américain. © ScientificAmerican.com. Tous droits réservés. Suivre Tiktok et Instagram, X et Facebook.

Anissa Chauvin