Dans ce qui semble être un coup dur d’une capacité dans laquelle nous pensions que les ordinateurs ne nous surpasseraient jamais, les scientifiques suggèrent désormais que l’IA comprenne mieux les émotions que nous.
Les scientifiques ont constaté que l’IA comprend mieux les émotions que nous – marquant beaucoup plus haut que la personne moyenne pour choisir la bonne réponse pour diffuser diverses situations chargées émotionnelles
Dans une nouvelle étude publié 21 mai dans le journal Psychologie des communicationsdes scientifiques de l’Université de Genève (UNIGE) et de l’Université de Berne (UNIBE) ont appliqué des tests d’intelligence émotionnelle (EI) largement utilisés (EI) (EI)TIGE, Steu, Mélanges de geènes, GECO Règlement et Geco Management) Aux modèles courants de grande langue (LLMS), y compris ChatGPT-4, ChatGpt-O1, Gemini 1.5 Flash, Claude 3.5 haiku, Copilot 365 et Deepseek V3.
Ils enquêtaient sur deux choses: premièrement, en comparant les performances de l’IA et des sujets humains, et deuxièmement, la capacité de créer de nouvelles questions de test qui adhèrent aux fins des tests d’EI.
En étudiant les réponses humaines validées à partir d’études précédentes, les LLM ont sélectionné la réponse « correcte » dans les tests d’intelligence émotionnelle 81% du temps, sur la base des opinions des experts humains, contre 56% pour les humains.
Lorsque Chatgpt a été invité à créer de nouvelles questions de test, les évaluateurs humains ont déclaré que ces efforts ont résisté aux tests originaux en termes de difficulté équivalente et de nettoyer la perception qu’ils ne paraphrasaient pas les questions originales. La corrélation entre les tests générés par l’AI et l’original a été décrite comme «forte», avec un coefficient de corrélation de 0,46 (où 1,0 se réfère à une corrélation parfaite et 0 se réfère à aucune corrélation).
La conclusion globale était que l’IA est meilleure pour «comprendre» les émotions que nous.
L’histoire plus profonde
Lorsque la science en direct a consulté plusieurs experts, un thème commun dans leurs réponses était de garder la méthodologie fermement à l’esprit. Chacun des tests d’EI courants utilisés était un choix multiple – à peine applicable aux scénarios du monde réel dans lesquels les tensions entre les personnes sont élevées, ont-ils souligné.
« Il convient de noter que les humains ne sont pas toujours d’accord sur ce que ressent quelqu’un d’autre, et même les psychologues peuvent interpréter différemment les signaux émotionnels », a déclaré l’industrie financière et l’expert en sécurité de l’information Taimur Ijlal. «Donc,« battre »un humain sur un test comme celui-ci ne signifie pas nécessairement que l’IA a une idée plus profonde. Cela signifie qu’il a donné la réponse statistiquement attendue plus souvent.»
La capacité testée par l’étude n’est pas l’intelligence émotionnelle mais autre chose, ont-ils ajouté. «Les systèmes d’IA sont excellents pour la reconnaissance des modèles, en particulier lorsque les indices émotionnels suivent une structure reconnaissable comme les expressions faciales ou les signaux linguistiques», a déclaré Nauman Jaffar, fondateur et PDG de Cliniscripts – un outil de documentation propulsé par l’IA construit pour les professionnels de la santé mentale. « Mais assimiler cela à une« compréhension »plus profonde des risques d’émotion humaine surévaluer ce que fait l’IA.»
Des quiz dans des environnements structurés et quantitatifs – plutôt qu’une appréciation de la nuance plus profonde que nécessite une véritable compréhension émotionnelle – est l’endroit où l’IA brille, et certains experts ont souligné un point crucial: que l’IA fonctionne mieux sur les tests sur des situations émotionnelles et non dans le temps du moment – la façon dont les humains les vivent.
Jason Hennessey, fondateur et PDG de Digital Hennessy – qui a passé des années à analyser comment la recherche et le langage de processus des systèmes d’IA génératifs – assimile l’étude à la Lire le test de l’esprit dans les yeux. Il s’agit d’un outil commun pour évaluer l’état émotionnel d’un sujet et une IA a montré promesse mais comme l’a dit Hennessey, lorsque des variables aussi routinières que l’éclairage dans le contexte photo ou culturel changent dans de tels tests, « la précision de l’IA dépose une falaise. »
Dans l’ensemble, la plupart des experts ont constaté que l’affirmation «comprend» mieux les émotions que les humains que les humains étaient un peu extensibles.
« Est-ce que les LLM sont utiles pour catégoriser les réactions émotionnelles courantes? » a déclaré Wyatt Mayham, fondateur de Northwest IT Consulting. « Bien sûr. Mais c’est comme dire que quelqu’un est un grand thérapeute parce qu’ils ont bien marqué sur un quiz Buzzfeed sur le thème émotionnel. »
Mais il y a une mise en garde finale, avec des preuves que même si l’IA utilise la reconnaissance des modèles plutôt qu’une véritable compréhension émotionnelle, elle a surpassé les humains pour identifier et répondre aux états émotionnels dans au moins un exemple.
Aílton, une IA conversationnelle utilisée par plus de 6 000 chauffeurs de camions long-courriers au Brésil, est un assistant multimodal WhatsApp qui a utilisé la voix, le texte et les images, et son développeur, le PDG et le scientifique en chef de Marcos Alves à chez Hal-aidit qu’Aílton identifie le stress, la colère ou la tristesse avec une précision d’environ 80% – à environ 20 points au-dessus de ses homologues humains, le tout dans le contexte dans les situations émotionnelles alors que les moteurs interagissent avec lui en temps réel.
Dans un cas, Aílton a répondu rapidement et de manière appropriée lorsqu’un conducteur a envoyé une note vocale désemparée de 15 secondes après un accident mortel d’un collègue, répondant avec des condoléances nuancées, offrant des ressources en santé mentale et alertant automatiquement les gestionnaires de flotte.
« Oui, les vignettes de texte à choix multiples simplifient la reconnaissance des émotions », a déclaré Alves. «La véritable empathie est continue et multimodale. Mais isoler la couche cognitive est utile. Il révèle si un LLM peut repérer des indices émotionnels avant d’ajouter du bruit situationnel.»
Il a ajouté la capacité des LLM à absorber des milliards de phrases et des milliers d’heures d’audio conversationnelles signifie qu’elle peut coder des indices de micro-intonation que les humains manquent souvent. « La configuration du laboratoire est limitée », a-t-il déclaré à propos de l’étude, « mais nos données WhatsApp confirment que les LLM modernes détectent et répondent déjà mieux que la plupart des gens, offrant une empathie évolutive à grande échelle. »