An illustration of a robotic arm painting at an easel

Les chercheurs découvrent des ingrédients cachés derrière la créativité de l’IA

Par Anissa Chauvin

On nous avait une fois promis des voitures autonomes et des femmes de chambre robots. Au lieu de cela, nous avons vu la montée des systèmes d’intelligence artificielle qui peuvent nous battre dans les échecs, analyser d’énormes rames de texte et composer des sonnets. Cela a été l’une des grandes surprises de l’ère moderne: les tâches physiques qui sont faciles pour les humains se révèlent très difficiles pour les robots, tandis que les algorithmes sont de plus en plus capables d’imiter notre intellect.

Une autre surprise qui a longtemps perplexe les chercheurs perplexes est le talent de ces algorithmes pour leur propre type de créativité étrange.

Les modèles de diffusion, l’épine dorsale des outils générateurs d’images tels que Dall · E, Imagen et diffusion stable, sont conçus pour générer des copies carbone des images sur lesquelles elles ont été formées. Dans la pratique, cependant, ils semblent improviser, mélangeant des éléments dans des images pour créer quelque chose de nouveau – pas seulement des taches de couleur absurdes, mais des images cohérentes avec une signification sémantique. C’est le « paradoxe » derrière les modèles de diffusion, a déclaré Giulio Biroli, chercheur et physicien de l’IA à l’École Normale Supérieure à Paris: « S’ils fonctionnaient parfaitement, ils devraient simplement mémoriser », a-t-il déclaré. « Mais ils ne le font pas – ils sont en fait capables de produire de nouveaux échantillons. »

Pour générer des images, les modèles de diffusion utilisent un processus appelé débrotage. Ils convertissent une image en bruit numérique (une collection incohérente de pixels), puis la réassemblent. C’est comme mettre à plusieurs reprises une peinture à travers un déchiqueteur jusqu’à ce qu’il vous reste un tas de poussière fine, puis ramener les morceaux ensemble. Pendant des années, les chercheurs se sont demandé: si les modèles ne font que remonter, alors comment la nouveauté est-elle dans le tableau? C’est comme remonter votre peinture râpée dans une toute nouvelle œuvre d’art.

Maintenant, deux physiciens ont fait une affirmation surprenante: ce sont les imperfections techniques du processus de débrassement lui-même qui conduit à la créativité des modèles de diffusion. Dans un article qui sera présenté à la Conférence internationale sur l’apprentissage automatique 2025, le duo a développé un modèle mathématique de modèles de diffusion formés pour montrer que leur soi-disant créativité est en fait un processus déterministe – une conséquence directe et inévitable de leur architecture.

En illuminant la boîte noire des modèles de diffusion, la nouvelle recherche pourrait avoir de grandes implications pour les futures recherches sur l’IA – et peut-être même pour notre compréhension de la créativité humaine. « La véritable force de l’article est qu’elle fait des prédictions très précises de quelque chose de très non trivial », a déclaré Luca Ambrogioni, informaticien de l’Université Radboud aux Pays-Bas.

Mason Kamb, un étudiant diplômé étudiant la physique appliquée à l’Université de Stanford et l’auteur principal du nouvel article, a longtemps été fasciné par la morphogenèse: les processus par lesquels les systèmes vivants s’auto-assemblent.

Une façon de comprendre le développement d’embryons chez l’homme et d’autres animaux est de ce que l’on appelle un modèle Turing, du nom du mathématicien Alan Turing du XXe siècle. Les modèles Turing expliquent comment les groupes de cellules peuvent s’organiser en organes et membres distincts. Surtout, cette coordination se déroule au niveau local. Il n’y a pas de PDG supervisant les milliards de cellules pour s’assurer qu’ils sont tous conformes à un plan corporel final. Les cellules individuelles, en d’autres termes, n’ont pas un plan fini d’un corps sur lequel baser leur travail. Ils agissent simplement et effectuent des corrections en réponse aux signaux de leurs voisins. Ce système ascendante se déroule généralement en douceur, mais de temps en temps, il tourne mal – produisant des mains avec des doigts supplémentaires, par exemple.

Lorsque les premières images générées par l’AI ont commencé à surgir en ligne, beaucoup ressemblaient à des peintures surréalistes, représentant les humains avec des doigts supplémentaires. Ceux-ci ont immédiatement fait penser à Kamb à la morphogenèse: « Cela sentait un échec que vous attendez d’un système (ascendant) », a-t-il déclaré.

Les chercheurs de l’IA savaient à ce moment-là que les modèles de diffusion prennent quelques raccourcis techniques lors de la génération d’images. Le premier est connu sous le nom de localité: ils ne prêtent attention qu’à un seul groupe, ou «patch» de pixels à la fois. La seconde est qu’ils adhèrent à une règle stricte lors de la génération d’images: si vous déplacez une image d’entrée par quelques pixels dans n’importe quelle direction, par exemple, le système s’ajustera automatiquement pour apporter le même changement dans l’image qu’elle génère. Cette caractéristique, appelée équivariance translationnelle, est la manière du modèle de préserver la structure cohérente; Sans cela, il est beaucoup plus difficile de créer des images réalistes.

En partie en raison de ces fonctionnalités, les modèles de diffusion ne prêtent aucune attention à l’endroit où un patch particulier s’intégrera dans l’image finale. Ils se concentrent uniquement sur la génération d’un patch à la fois, puis les adaptent automatiquement en place à l’aide d’un modèle mathématique connu sous le nom de fonction de score, qui peut être considéré comme un modèle de Turing numérique.

Les chercheurs ont longtemps considéré la localité et l’équivariance comme de simples limites du processus de débarras, des bizarreries techniques qui empêchaient des modèles de diffusion de créer des répliques parfaites d’images. Ils ne les associaient pas à la créativité, qui était considérée comme un phénomène d’ordre supérieur.

Ils étaient dans une autre surprise.

Fait localement

Kamb a commencé ses études supérieures en 2022 dans le laboratoire de Surya Ganguli, physicienne à Stanford qui a également des rendez-vous en neurobiologie et en génie électrique. OpenAI a publié Chatgpt la même année, provoquant une augmentation d’intérêt dans le domaine maintenant connu sous le nom d’IA génératif. Alors que les développeurs technologiques travaillaient sur la construction de modèles de plus en plus puissants, de nombreux universitaires sont restés obligés de comprendre le fonctionnement interne de ces systèmes.

À cette fin, Kamb a finalement développé une hypothèse selon laquelle la localité et l’équivariance conduisent à la créativité. Cela a soulevé une possibilité expérimentale alléchante: s’il pouvait concevoir un système pour ne rien faire d’autre que l’optimisation pour la localité et l’équivariance, il devrait alors se comporter comme un modèle de diffusion. Cette expérience était au cœur de son nouvel article, qu’il a écrit avec Ganguli comme co-auteur.

Kamb et Ganguli appellent leur système la machine à score local équivariant (ELS). Il ne s’agit pas d’un modèle de diffusion formé, mais plutôt d’un ensemble d’équations qui peuvent prédire analytiquement la composition d’images débrouillées basées uniquement sur la mécanique de la localité et de l’équivariance. Ils ont ensuite pris une série d’images qui avaient été converties en bruit numérique et les ont parcourus à la fois à la machine ELS et à un certain nombre de modèles de diffusion puissants, y compris des résintes et des UNNE.

Les résultats étaient « choquants », a déclaré Ganguli: Dans tous les domaines, la machine ELS a pu correspondre de manière identique aux sorties des modèles de diffusion formés avec une précision moyenne de 90% – un résultat « inconnu dans l’apprentissage automatique », a déclaré Ganguli.

Les résultats semblent soutenir l’hypothèse de Kamb. « Dès que vous impostez la localité, (la créativité) était automatique; elle est tombée complètement de la dynamique », a-t-il déclaré. Les mécanismes mêmes qui contraignent la fenêtre d’attention des modèles de diffusion pendant le processus de débarras – les forçant à se concentrer sur les correctifs individuels, quel que soit leur entrée dans le produit final – sont les mêmes qui permettent leur créativité, a-t-il trouvé. Le phénomène des extra-doigts observé dans les modèles de diffusion était également un sous-produit direct de l’hyperfixation du modèle sur la génération de patchs locaux de pixels sans aucun contexte plus large.

Les experts interrogés pour cette histoire ont généralement convenu que bien que le papier de Kamb et Ganguli éclaire les mécanismes derrière la créativité dans les modèles de diffusion, il reste beaucoup mystérieux. Par exemple, les modèles de grandes langues et d’autres systèmes d’IA semblent également afficher la créativité, mais ils n’appartiennent pas la localité et l’équivariance.

« Je pense que c’est une partie très importante de l’histoire », a déclaré Biroli, « (mais) ce n’est pas toute l’histoire. »

Créer une créativité

Pour la première fois, les chercheurs ont montré comment la créativité des modèles de diffusion peut être considérée comme un sous-produit du processus de débrassement lui-même, qui peut être formalisé mathématiquement et prédit avec un degré de précision sans précédent. C’est presque comme si les neuroscientifiques avaient mis un groupe d’artistes humains dans une machine IRM et trouvé un mécanisme neuronal commun derrière leur créativité qui pourrait être écrit comme un ensemble d’équations.

La comparaison avec les neurosciences peut aller au-delà de la simple métaphore: le travail de Kamb et Ganguli pourrait également donner un aperçu de la boîte noire de l’esprit humain. « La créativité humaine et en IA peut ne pas être aussi différente », a déclaré Benjamin Hoover, chercheur à l’apprentissage automatique au Georgia Institute of Technology et IBM Research qui étudie les modèles de diffusion. « Nous assemblons des choses en fonction de ce que nous vivons, de ce que nous avons rêvé, de ce que nous avons vu, entendu ou désira. AI est également en train d’assembler les éléments constitutifs de ce qu’il est vu et de ce qu’il est demandé de faire. » Selon ce point de vue, la créativité humaine et artificielle pourrait être fondamentalement enracinée dans une compréhension incomplète du monde: nous faisons tous de notre mieux pour combler les lacunes de nos connaissances, et de temps en temps nous générons quelque chose à la fois nouveau et précieux. C’est peut-être ce que nous appelons la créativité.

Histoire originale réimprimée avec la permission de Magazine Quantaune publication éditoriale indépendante soutenue par la Fondation Simons.

Anissa Chauvin