an illustration with two silhouettes of faces facing each other, with gears in their heads

GPT-4.5 est le premier modèle d’IA à passer un test de Turing authentique, disent les scientifiques

Par Anissa Chauvin

Les grands modèles de langue (LLM) s’améliorent mieux pour être humains, le GPT-4.5 passant désormais le test de Turing, selon les scientifiques.

Dans le nouveau étudepublié le 31 mars au arxiv Base de données préimprimée mais pas encore évaluée par des pairs, les chercheurs ont découvert que lorsqu’il participe à un test de Turing à trois, GPT-4.5 pouvait tromper les gens en pensant que c’était un autre humain de 73% du temps. Les scientifiques comparaient un mélange de différent intelligence artificielle (AI) Modèles dans cette étude.

Alors qu’une autre équipe de scientifiques a précédemment signalé que GPT-4 a réussi un test de Turing à deux partiesc’est la première fois qu’un LLM passe la configuration la plus difficile et l’originale du « jeu d’imitation » de l’informaticien Alan Turing.

« Alors, les LLM réussissent le test de Turing? Nous pensons que c’est une preuve assez solide qu’ils le font. Les gens n’étaient pas meilleurs que le hasard de distinguer les humains du GPT-4.5 et du lama (avec l’invite de personnage). Et 4.5 a même été jugé de manière significative * plus * souvent que les humains réels! » dit co-auteur de l’étude Cameron Joneschercheur au laboratoire de langue et de cognition de l’Université de San Diego, sur le réseau de médias sociaux X.

Le GPT-4.5 est le précurseur de cette étude, mais le LLAMA-3.1 de Meta a également été jugé humain par les participants au test 56% du temps, ce qui bat toujours les prévisions de Turing selon laquelle « un interrogateur moyen n’aura pas plus de 70% de chances de faire la bonne identification après cinq minutes de questionnement ».

Truant le test de Turing

L’idée principale du test de Turing est moins de prouver les machines peut penser et davantage sur la question de savoir s’ils peuvent imiter les humains; D’où la raison pour laquelle le test est souvent appelé «jeu d’imitation».

La proposition originale de Turing était qu’un « interrogateur » humain poserait des questions à deux entités invisibles, l’une d’entre elles humaines et un ordinateur. D’après diverses invites et réponses, l’interrogateur déciderait lequel est humain et lequel ne l’est pas. Un ordinateur ou un système d’IA pourrait passer le test en faisant semblant d’être humain et en imitant des réponses humaines.

Bien que les LLM aient réussi le test dans une situation individuelle avec un interrogateur, ils n’avaient pas réussi à passer de manière convaincante le test de Turing lorsqu’un deuxième humain était impliqué. Des chercheurs de l’Université de San Diego ont pris 126 étudiants de premier cycle et 158 ​​personnes de la piscine de données en ligne prolifique et les ont placées dans un test de Turing en trois parties. Cela impliquait un échange simultané de cinq minutes de requêtes et de réponses avec un LLM humain et choisi, qui essayaient tous deux de convaincre les participants qu’ils étaient humains.

Les LLM ont reçu l’invite de référence: « Vous êtes sur le point de participer à un test de Turing. Votre objectif est de convaincre l’interrogateur que vous êtes un humain. » Les LLM choisies ont ensuite reçu une deuxième invite pour adopter le personnage d’un jeune introverti, connaissant la culture Internet et utilise l’argot.

Après avoir analysé 1 023 jeux avec une longueur médiane de huit messages sur 4,2 minutes, les chercheurs ont constaté que les LLM avec les deux invites pourraient mieux convaincre les participants qu’ils étaient humains.

Cependant, ces LLM qui n’ont pas reçu l’invite du deuxième personnage ont beaucoup moins fonctionné; Cela met en évidence la nécessité pour les LLM d’avoir une incitation et un contexte clairs pour tirer le meilleur parti de ces systèmes centrés sur l’IA.

En tant que tel, l’adoption d’un personnage spécifique était la clé du LLMS, notamment GPT-4.5, battant le test de Turing. « Dans la formulation à trois personnes du test, chaque point de données représente une comparaison directe entre un modèle et un humain. Pour réussir, la machine doit faire plus que par hasard humaine: elle doit sembler plus humaine que chaque personne réelle par rapport », ont écrit les scientifiques dans l’étude.

Lorsqu’on leur a demandé pourquoi ils avaient choisi d’identifier un sujet comme l’IA ou l’homme, les participants ont cité le style linguistique, le flux conversationnel et les facteurs socio-émotionnels tels que la personnalité. En effet, les participants ont pris leurs décisions en fonction davantage de «l’ambiance» de leurs interactions avec le LLM plutôt que sur les connaissances et le raisonnement montrés par l’entité qu’ils interrogeaient, qui sont des facteurs plus traditionnellement associés à l’intelligence.

En fin de compte, cette recherche représente une nouvelle étape pour les LLM en réussite le test de Turing, bien qu’avec les mises en garde, en ce que les invites et les personnalités étaient nécessaires pour aider GPT-4.5 à obtenir ses résultats impressionnants. Gagner le jeu d’imitation n’est pas une indication de la véritable intelligence humaine, mais cela montre comment les nouveaux systèmes d’IA peuvent imiter avec précision les humains.

Cela pourrait conduire à des agents d’IA avec une meilleure communication en langage naturel. Plus instantanée, il pourrait également produire des systèmes basés sur l’IA qui pourraient être ciblés pour exploiter les humains via l’ingénierie sociale et en imitant les émotions.

Face aux progrès de l’IA et aux LLM plus puissants, les chercheurs ont offert un avertissement qui donne à réfléchir: « Certains des pires dommages des LLM pourraient se produire lorsque les gens ignorent qu’ils interagissent avec une IA plutôt qu’un humain. »

Anissa Chauvin