N’abandonnez pas votre travail de jour, car une nouvelle étude suggère que intelligence artificielle (AI) est plus drôle que vous.
Dans une nouvelle étude conçue pour tester les capacités co-créatives des modèles de grande langue (LLM), les mèmes Internet créés par GPT-4O d’Openai Les modèles étaient, en moyenne, plus drôles, plus créatifs et plus partageables que ceux créés par les humains, ou par des humains avec une assistance au chatbot. Cependant, en ce qui concerne la qualité des mèmes les mieux notés, l’humour généré par l’homme a toujours prévalu.
Les résultats ont été téléchargés le 20 janvier sur le arxiv Préprint Server et présenté à la 30e conférence internationale sur les interfaces utilisateur intelligentes, qui a eu lieu du 24 au 27 mars, à Cagliari, en Italie.
Commentant les résultats sur le réseau social Bluesky, Ethan Mollickprofesseur et codirecteur du Generative AI Lab à l’Université de Wharton de Pennsylvanie, a déclaré: « Je regrette d’annoncer que le test de mème Turing a été passé. »
Le test de Turing original a été proposé en 1950 par le mathématicien britannique Alan Turing En tant que référence pour l’intelligence machine: si un juge humain ne pouvait pas distinguer un humain et une machine Dans la conversation, on pourrait dire que la machine présente une intelligence au niveau de l’homme.
Bien que l’étude n’ait pas évalué si les mèmes générés par l’IA étaient indiscernables de ceux fabriqués par l’homme, il soulève des questions intéressantes sur la façon dont nous évaluons la créativité – en particulier car les participants ont souvent évalué le contenu généré par l’IA plus favorablement.
Apprentissage des machettes
Les chercheurs, du Kth Royal Institute of Technology, LMU Munich et Tu Darmstadt, n’avaient pas entrepris de démontrer les capacités comiques de l’IA. Au lieu de cela, ils ont décidé d’explorer la co-créativité, en particulier comment les LLM peuvent soutenir les humains avec des tâches créatives comme l’écriture de blagues.
Ils ont identifié la création de mèmes, avec son mélange de références culturelles, de sarcasme et de pression de performance à faibles enjeux, comme le cas de test parfait. Les mèmes prennent généralement la forme d’images sous-titrées qui riffent sur des situations familières ou de la culture pop. Ils sont devenus un type de raccourci Internet partagé, utilisés pour faire des blagues ou répondre aux événements actuels dans un format facilement digestible et souvent irrévérencieux.
« La complexité de l’humour en fait un domaine riche pour explorer la dynamique de la co-créativité, car les collaborateurs doivent naviguer dans ces nuances pour produire du contenu qui résonne avec les autres », ont écrit les chercheurs dans l’article.
L’expérience impliquait deux parties. Dans le premier, les chercheurs ont recruté 124 participants et les ont attribués à l’un des deux groupes: l’un travaillant seul et l’autre travaillant avec un assistant de chatbot AI.
Les participants ont ensuite reçu trois tours pour générer des légendes pour les modèles de mèmes classiques basés sur les sujets du travail, de la nourriture et des sports – y compris Faire frire de Futurama, Doge et Boromir (on ne marche pas simplement dans le Mordor) modèles. Ceux du groupe assisté par l’IA pourraient utiliser un chatbot pour réfléchir aux idées mais étaient responsables de la sélection des meilleures idées et de la création des mèmes finaux.
Le groupe uniquement humain a créé 335 mèmes, tandis que 307 ont été produits par des équipes hybrides humains-AI. 150 mèmes supplémentaires ont été générés par GPT-4O pour comparaison.
Un deuxième groupe de 98 personnes a ensuite évalué les mèmes à quel point ils étaient drôles, créatifs et partageables. Les mèmes ont été randomisés afin que les évaluateurs ne savaient pas qui ou ce qui les avait fait. Dans les trois catégories, les mèmes générés par l’IA sont sortis en tête.
« Fait intéressant, les mèmes créés entièrement par l’IA ont mieux performé que les mèmes collaboratifs à la fois sur l’homme et l’human-AI dans tous les domaines en moyenne », ont écrit les chercheurs dans le document. « Cependant, lorsque l’on regarde les mèmes les plus performants, les mèmes créés par l’homme étaient meilleurs en humour, tandis que les collaborations humaines-AI se sont démarquées dans la créativité et la part de la part de la partage. »
En d’autres termes, alors que les mèmes générés par l’IA ont obtenu le plus haut niveau en moyenne, les mèmes identifiés comme étant «les plus drôles» ont été le plus souvent créés par les humains.
Régénération du contenu
Les chercheurs ont crédité les fortes scores moyens de l’IA aux FACT que les LLM sont formées sur d’énormes volumes de contenu Internet, ce qui les rend bons pour imiter l’humour largement populaire, mais pas tant pour décrocher un véritable zinger d’une punchline. « Les LLM font appel à un large goût d’humour, mais les humains peuvent être encore plus stimulants », ont-ils écrit.
L’étude a également examiné l’impact de l’assistance de l’IA sur la productivité et l’effort perçu. Les participants travaillant avec le chatbot ont généré plus d’idées que ceux qui travaillent seuls, mais cela ne s’est pas toujours traduit par du contenu plus drôle.
Selon les chercheurs, c’est parce que si les LLM peuvent aider à la génération d’idées, ils n’augmentent pas nécessairement la barre de la qualité créative. Cela est particulièrement vrai pour l’humour, qui, selon les chercheurs, nécessitait « le moment, le contexte culturel, les connaissances partagées et la capacité de renverser les attentes ».
Les chercheurs ont conclu: « Bien que les LLM peuvent générer des mèmes humoristiques et contextuellement appropriés, ils sont souvent confrontés à des défis dans la capture des références culturelles nuancées et des subtilités émotionnelles inhérentes à la créativité humaine. Bien que l’IA puisse augmenter la productivité et créer un contenu qui fait appel à un large public, la créativité humaine reste cruciale pour le contenu qui se connecte à un niveau plus profond. »