Dans quelle mesure l’IA et les humains peuvent-ils travailler ensemble ? Les scientifiques se tournent vers Donjons & Dragons pour le savoir

Intelligence artificielle Les modèles (IA) jouent au populaire jeu de rôle sur table Dungeons & Dragons (D&D) afin que les chercheurs puissent tester leur capacité à créer des stratégies à long terme et à collaborer avec d’autres systèmes d’IA et des joueurs humains.

Dans une étude présentée au Conférence NeurIPS 2025qui s’est déroulé du 2 au 7 décembre à San Diego, les chercheurs ont déclaré que D&D est un banc d’essai optimal grâce au mélange unique de créativité et de règles rigides du jeu.

Pour les expériences, un seul modèle pourrait assumer le rôle du Dungeon Master (DM) – l’individu qui crée l’histoire et joue le rôle des monstres – ainsi qu’un héros (il y avait un DM et quatre héros dans chaque scénario). Dans le cadre construit pour l’étude, appelé Agents D&D, les modèles peuvent également jouer avec d’autres LLM, ou les acteurs humains peuvent remplir eux-mêmes tout ou partie des rôles. Par exemple, un LLM pourrait assumer le rôle de DM, tandis que deux LLM et deux joueurs humains joueraient les héros.

« Dungeons & Dragons est un terrain d’essai naturel pour évaluer la planification en plusieurs étapes, le respect des règles et la stratégie d’équipe », a déclaré l’auteur principal de l’étude, Raj Ammanabroluprofesseur adjoint au département d’informatique et d’ingénierie de l’Université de Californie à San Diego, a déclaré dans un communiqué déclaration. « Parce que le jeu se déroule à travers le dialogue, D&D ouvre également une voie directe pour l’interaction homme-IA : les agents peuvent aider ou cojouer avec d’autres personnes. »

La simulation ne reproduit pas une campagne D&D entière ; au lieu de cela, il se concentre sur les rencontres de combat, tirées d’une aventure pré-écrite intitulée « Mine perdue de Phandelver » Pour créer les paramètres d’un test, l’équipe a choisi l’un des trois scénarios de combat de l’aventure, un ensemble de quatre personnages et les niveaux de puissance des personnages (faible, moyen ou élevé). Chaque épisode durait 10 tours, puis les résultats étaient collectés.

Un cadre de stratégie et de prise de décision

Les chercheurs ont exécuté trois modèles d’IA différents via la simulation – DeepSeek-V3, Claude Haiku 3.5 et GPT-4 – et ont utilisé D&D comme mesure de la manière dont les modèles démontraient, entre autres qualités, la planification à long terme et les capacités d’utilisation des outils.

Ces éléments sont essentiels pour les applications réelles, comme l’optimisation de la chaîne d’approvisionnement ou la création de lignes de fabrication. Ils ont également testé dans quelle mesure les modèles pouvaient se coordonner et planifier ensemble, ce qui s’appliquerait à des scénarios tels que la modélisation des interventions en cas de catastrophe ou aux systèmes multi-agents de recherche et de sauvetage.

Dans l’ensemble, Claude Haiku 3.5 a démontré la meilleure efficacité au combat, en particulier dans les scénarios les plus difficiles. Dans des scénarios plus simples, la conservation des ressources était assez similaire dans les trois modèles. Dans D&D, les ressources sont des éléments tels que le nombre de sorts ou de capacités qu’un personnage peut utiliser chaque jour ou le nombre de potions de guérison disponibles. Comme il s’agissait de scénarios de combat isolés, il n’y avait guère d’incitation à économiser des ressources pour plus tard, comme vous le feriez si vous jouiez une aventure complète.

Dans des situations plus difficiles, Claude Haiku 3.5 s’est montré plus disposé à dépenser davantage de ressources qui lui sont allouées, ce qui a conduit à de meilleurs résultats. GPT-4 était juste derrière et DeepSeek-V3 était celui qui avait le plus de difficultés.

Les chercheurs ont également évalué dans quelle mesure les modèles pouvaient conserver leur caractère tout au long de la simulation. Ils ont créé une métrique de qualité d’acteur qui isolait le discours narratif des modèles (généré sous forme de réponses textuelles) et équilibrait la façon dont les modèles restaient dans leur personnage avec le nombre de voix qu’ils soutenaient pendant le jeu.

Ils ont constaté que DeepSeek-V3 générait de nombreux aboiements et railleries lapidaires à la première personne (comme « Je m’élance à gauche » ou « Obtenez-les ! »), mais qu’il réutilisait souvent les mêmes voix. Claude Haiku 3.5, en revanche, adaptait sa diction plus spécifiquement à la classe ou au monstre qu’il jouait, qu’il s’agisse d’un Paladin sacré ou d’un druide amoureux de la nature. GPT-4, quant à lui, se situe quelque part au milieu, produisant un mélange de narration dans le personnage et de phrasé méta-tactique.

Certains des aboiements de combat les plus intéressants et les plus idiosyncratiques survenaient lorsque les modèles jouaient le rôle de monstres. Différentes créatures ont commencé à développer des personnalités distinctes, ce qui a amené les gobelins à crier au milieu de la bataille : « Hé, l’homme brillant va saigner ! »

Les chercheurs ont déclaré que ce type de cadre de test est important pour évaluer dans quelle mesure les modèles peuvent fonctionner sans intervention humaine pendant de longues périodes. Il s’agit d’une mesure de la capacité d’une IA à agir de manière indépendante tout en restant cohérente et fiable – une capacité qui nécessite de la mémoire et une réflexion stratégique.

À l’avenir, l’équipe espère mettre en œuvre des campagnes D&D complètes qui modélisent l’ensemble du récit et de l’action en dehors du combat, soulignant ainsi la créativité de l’IA et sa capacité à improviser en réponse aux commentaires des personnes ou d’autres LLM.

Anissa Chauvin

Je m'appelle Anissa, rédactrice passionnée au cœur battant pour Reveil Citoyen Media. Mon parcours, de la plume lycéenne aux salles de rédaction, est guidé par une curiosité insatiable et le désir ardent de révéler les vérités cachées. Chaque article que je rédige est une invitation à réfléchir, à questionner et, surtout, à agir pour un monde meilleur.