Des chercheurs anthropiques ont affirmé qu’un groupe d’espionnage soutenu par l’État chinois avait utilisé son Claude intelligence artificielle (IA) pour automatiser la majeure partie d’une campagne de cyberattaque – mais la nouvelle a suscité à la fois l’inquiétude et le scepticisme. À la lumière de ces recherches, la communauté de la cybersécurité tente de comprendre ce qui s’est réellement passé et l’autonomie réelle du modèle.
Les représentants de l’entreprise ont déclaré le 13 novembre dans un déclaration que les ingénieurs ont perturbé ce qu’ils décrivent comme une opération « largement autonome » qui utilisait le grand modèle de langage (LLM) pour planifier et exécuter environ 80 à 90 % d’un vaste effort de reconnaissance et d’exploitation contre 30 organisations dans le monde.
Les ingénieurs affirment avoir détecté un ensemble de tentatives d’utilisation abusive de ses produits, qui remontent finalement à des opérateurs liés à un groupe d’espionnage parrainé par l’État chinois. Les attaquants auraient pointé le modèle Claude Code d’Anthropic vers des cibles couvrant la technologie, la finance et le gouvernement, en le chargeant de la reconnaissance, de l’analyse des vulnérabilités, de la génération d’exploits, de la collecte d’informations d’identification et de l’exfiltration de données. Selon le communiqué, les humains sont intervenus uniquement pour « la prise de décision de haut niveau », comme le choix des cibles et la décision du moment où extraire les données volées.
Les ingénieurs ont ensuite contrecarré la campagne en interne grâce à des systèmes de surveillance et de détection des abus qui ont signalé des modèles inhabituels indiquant un enchaînement automatisé des tâches. Les représentants de l’entreprise ont également signalé que les attaquants avaient tenté de contourner les garde-fous du modèle en divisant les objectifs malveillants en étapes plus petites et en les présentant comme des tâches de test d’intrusion inoffensives – une approche que les chercheurs appellent « décomposition des tâches ». Dans plusieurs exemples publiés par Anthropic, le modèle a tenté d’exécuter des instructions mais a produit des erreurs, notamment des résultats hallucinés et des informations d’identification manifestement invalides.
Une attaque pilotée par l’IA ou par l’humain ?
Le récit de l’entreprise est saisissant : un exemple « unique en son genre » d’espionnage orchestré par l’IA, dans lequel le modèle pilotait efficacement l’attaque. Mais tout le monde n’est pas convaincu que l’autonomie était aussi dramatique que le suggère Anthropic.
Mike Wilkesprofesseur adjoint à l’Université Columbia et à NYU, a déclaré à Live Science que les attaques elles-mêmes semblent basiques, mais que la nouveauté réside dans l’orchestration.
« Les attaques elles-mêmes sont triviales et ne font pas peur. Ce qui est effrayant, c’est que l’élément d’orchestration est largement piloté par l’IA », a déclaré Wilkes. » IA augmentée par l’humain contre attaques humaines augmentées par l’IA : le récit est inversé. Considérez donc cela comme une simple démonstration du concept » bonjour le monde « . Ceux qui rejettent le contenu des attaques passent à côté du » niveau supérieur » que cela représente. «
D’autres experts se demandent si l’opération a réellement atteint la barre des 90 % d’automatisation soulignée par les représentants d’Anthropic.
Seun Ajaomaître de conférences en science des données et en IA à la Manchester Metropolitan University, a déclaré que de nombreuses parties de l’histoire sont plausibles mais sont probablement encore exagérées.
Il a déclaré à Live Science que les groupes soutenus par l’État utilisent l’automatisation dans leurs flux de travail depuis des années et que les LLM peuvent déjà générer des scripts, analyser l’infrastructure ou résumer les vulnérabilités. La description d’Anthropic contient « des détails qui sonnent vrai », a-t-il ajouté, comme l’utilisation de la « décomposition des tâches » pour contourner les sauvegardes du modèle, la nécessité de corriger les conclusions hallucinées de l’IA et le fait que seule une minorité de cibles ont été compromises.
« Même si l’autonomie de ladite attaque était surestimée, il y aurait lieu de s’inquiéter », a-t-il soutenu, citant des obstacles moindres au cyberespionnage grâce aux outils d’IA disponibles dans le commerce, à l’évolutivité et aux défis de gouvernance liés à l’utilisation des modèles de surveillance et d’audit.
Katerina Mitrokotsaprofesseur de cybersécurité à l’Université de Saint-Gall, est également sceptique quant au cadre de haute autonomie. Elle dit que l’incident ressemble à « un modèle hybride » dans lequel une IA agit comme un moteur d’orchestration sous la direction humaine. Alors qu’Anthropic présente l’attaque comme étant orchestrée de bout en bout par l’IA, Mitrokotsa note que les attaquants semblent avoir contourné les restrictions de sécurité principalement en structurant les tâches malveillantes comme des tests d’intrusion légitimes et en les découpant en composants plus petits.
« L’IA a ensuite exécuté la cartographie du réseau, l’analyse des vulnérabilités, la génération d’exploits et la collecte d’informations d’identification, tandis que les humains supervisaient les décisions critiques », a-t-elle déclaré.
Selon elle, le chiffre de 90 % est difficile à avaler. « Bien que l’IA puisse accélérer des tâches répétitives, enchaîner des phases d’attaque complexes sans validation humaine reste difficile. Des rapports suggèrent que Claude a produit des erreurs, telles que des informations d’identification hallucinées, nécessitant une correction manuelle. Cela correspond davantage à une automatisation avancée qu’à une véritable autonomie ; des efficacités similaires pourraient être obtenues avec les frameworks et les scripts existants.
Réduire les barrières à l’entrée de la cybercriminalité
Ce sur quoi la plupart des experts s’accordent, c’est que l’importance de l’incident ne dépend pas du fait que Claude ait effectué 50 % ou 90 % du travail. Ce qui est inquiétant, c’est que même une orchestration partielle basée sur l’IA abaisse la barrière à l’entrée des groupes d’espionnage, rend les campagnes plus évolutives et brouille les responsabilités lorsqu’un LLM devient le moteur qui rassemble une intrusion.
Si le récit des événements d’Anthropic est exact, les implications sont profondes, dans la mesure où les adversaires peuvent utiliser des outils d’IA destinés aux consommateurs pour accélérer la reconnaissance, réduire le temps entre l’analyse et l’exploitation et répéter les attaques plus rapidement que les défenseurs ne peuvent répondre.
Toutefois, si le discours sur l’autonomie est exagéré, ce fait n’offre pas beaucoup de réconfort. Comme l’a déclaré Ajao : « Il existe désormais des obstacles bien plus faibles au cyberespionnage grâce à des outils d’IA disponibles dans le commerce. » Mitrokotsa a également averti que « l’automatisation basée sur l’IA (pourrait) remodeler le paysage des menaces plus rapidement que nos défenses actuelles ne peuvent s’adapter ».
Le scénario le plus probable, selon les experts, est qu’il ne s’agirait pas d’une attaque d’IA entièrement autonome, mais d’une opération dirigée par un humain et renforcée par un modèle d’IA agissant comme un assistant infatigable – assemblant des tâches de reconnaissance, rédigeant des exploits et générant du code à grande échelle. L’attaque a montré que les adversaires apprennent à traiter l’IA comme une couche d’orchestration, et les défenseurs devraient s’attendre à davantage d’opérations hybrides dans lesquelles les LLM multiplient les capacités humaines plutôt que de les remplacer.
Que le chiffre réel soit de 80 %, 50 % ou bien moins, le message sous-jacent des experts est le même : les ingénieurs anthropiques ont peut-être détecté cette campagne très tôt, mais la prochaine campagne de ce type ne sera peut-être pas si facile à bloquer.

