Digital generated image of young japanese woman standing inside multicoloured data sheets and social media chat icons organised into circular pattern around her against purple background.

Les chatbots IA populaires présentent une faille de cryptage alarmante, ce qui signifie que les pirates peuvent facilement intercepter les messages.

Par Anissa Chauvin

Les chercheurs en cybersécurité de Microsoft ont identifié une faille critique dans les systèmes modernes. intelligence artificielle (IA), ce qui signifie que les conversations avec les chatbots peuvent avoir été interceptées par des attaques de pirates. Cela contournerait le cryptage destiné à maintenir la confidentialité des discussions.

La technique d’attaque, appelée Whisper Leak, est un type « d’attaque de l’homme du milieu » dans laquelle les pirates peuvent intercepter les messages pendant leur transit entre les serveurs. Cela a fonctionné car les pirates ont pu lire les métadonnées des messages et donc en déduire leur contenu.

« Je ne suis pas surpris », a déclaré l’analyste en cybersécurité Dave Lear à Live Science. « Les LLM sont une mine d’or potentielle, compte tenu de la quantité d’informations que les gens y mettent – et sans parler de la quantité de données médicales qui peuvent s’y trouver, maintenant que les hôpitaux les utilisent pour trier les données de tests, quelqu’un devait forcément trouver un moyen d’exfiltrer ces informations tôt ou tard. »

Découvrir les vulnérabilités des chatbots IA

Des systèmes d’IA génératifs comme Chat GPT sont de puissants outils d’IA capables de générer des réponses basées sur une série d’invites, telles qu’utilisées par les assistants virtuels sur les smartphones. Un sous-ensemble de LLM est formé sur des quantités massives de données pour générer des réponses textuelles.

Les conversations que les utilisateurs ont avec les LLM sont normalement protégées par Transport Layer Security (TLS), un type de protocole de cryptage qui empêche les communications d’être lues par des oreilles indiscrètes. Mais les chercheurs ont pu intercepter et déduire des contenus grâce aux métadonnées des communications entre un utilisateur et un chatbot.

Les métadonnées sont essentiellement des données sur les données, notamment leur taille et leur fréquence, et elles peuvent souvent avoir plus de valeur que le contenu des messages eux-mêmes. Bien que le contenu des messages entre les personnes et les LLM soit resté sécurisé, en interceptant les messages et en analysant les métadonnées, les chercheurs ont pu déduire le sujet des messages.

Ils y sont parvenus en analysant la taille des paquets de données cryptés (une petite unité de données formatée envoyée sur un réseau) à partir des réponses LLM. Les chercheurs ont pu développer une série de techniques d’attaque, basées sur les timings, les sorties et la séquence de longueurs de jetons, pour reconstruire des phrases plausibles dans les messages sans avoir à contourner le cryptage.

À bien des égards, l’attaque Whisper Leak utilise une version plus avancée des politiques de surveillance Internet du Royaume-Uni. Loi de 2016 sur les pouvoirs d’enquêtequi déduit le contenu des messages en fonction de l’expéditeur, des horaires, de la taille et de la fréquence, mais sans lire le contenu des messages eux-mêmes.

« Pour mettre cela en perspective : si une agence gouvernementale ou un fournisseur de services Internet surveillait le trafic vers un chatbot IA populaire, ils pourraient identifier de manière fiable les utilisateurs posant des questions sur des sujets sensibles spécifiques – qu’il s’agisse de blanchiment d’argent, de dissidence politique ou d’autres sujets surveillés – même si tout le trafic est crypté », ont déclaré les chercheurs en sécurité. Jonathan Bar Ou et Geoff McDonald dans un article de blog publié par l’équipe de recherche sur la sécurité de Microsoft Defender.

Il existe diverses techniques que les prestataires de LLM pourraient utiliser pour atténuer ce risque. Par exemple, un remplissage aléatoire (ajout d’octets aléatoires à un message pour perturber l’inférence) pourrait être ajouté aux champs de réponse, augmentant ainsi leur longueur et réduisant la prévisibilité en déformant la taille des paquets.

La faille au cœur de Whisper Leak mais une conséquence architecturale de la manière dont les LLM sont déployés. Atténuer la vulnérabilité n’est pas un défi insurmontable, mais les correctifs n’ont pas été universellement mis en œuvre par tous les fournisseurs LLM, ont indiqué les chercheurs.

Jusqu’à ce que les fournisseurs soient en mesure de remédier aux failles des chatbots, les chercheurs ont déclaré que les utilisateurs devraient éviter de discuter de sujets sensibles sur des réseaux non fiables et savoir si leurs fournisseurs ont mis en œuvre des mesures d’atténuation. Les réseaux privés virtuels (VPN) peuvent également être utilisés comme couche de protection supplémentaire car ils masquent l’identité et l’emplacement de l’utilisateur.

Anissa Chauvin