Brain activity illustration.

Algorithme de l’IA utilisé pour déballer les neurosciences du langage humain

Par Anissa Chauvin

En utilisant intelligence artificielle (AI), les scientifiques ont démêlé l’activité cérébrale complexe qui se déroule lors des conversations quotidiennes.

L’outil pourrait offrir de nouvelles connaissances sur les neurosciences du langage, et un jour, il pourrait aider à améliorer les technologies conçues pour reconnaître la parole ou aider les gens à communiquerdisent les chercheurs.

Sur la base de la façon dont un modèle d’IA transcrit l’audio en texte, les chercheurs derrière l’étude pourraient cartographier l’activité cérébrale qui se déroule pendant la conversation plus précisément que les modèles traditionnels qui codent pour des caractéristiques spécifiques de la structure du langage – telles que les phonèmes (les sons simples qui composent les mots) et des parties de la parole (telles que les noms, les verbes et les adjectifs).

Le modèle utilisé dans l’étude, appelé chuchotementprend plutôt des fichiers audio et leurs transcriptions de texte, qui sont utilisées comme données de formation pour cartographier l’audio au texte. Il utilise ensuite les statistiques de ce mappage pour « apprendre » pour prédire le texte à partir de nouveaux fichiers audio qu’il n’avait pas entendus auparavant.

En tant que tel, Whisper fonctionne uniquement à travers ces statistiques sans aucune caractéristique de la structure linguistique codée dans ses paramètres d’origine. Mais néanmoins, dans l’étude, les scientifiques ont montré que ces structures étaient encore émergées dans le modèle une fois qu’elles ont été formées.

L’étude met en lumière le fonctionnement de ces types de modèles d’IA – appelés modèles de grand langage (LLMS). Mais l’équipe de recherche s’intéresse davantage à la perspicacité qu’elle fournit sur le langage humain et la cognition. L’identification des similitudes entre la façon dont le modèle développe les capacités de traitement du langage et la façon dont les gens développent ces compétences peuvent être utiles pour les appareils d’ingénierie qui aident les gens à communiquer.

« C’est vraiment la façon dont nous pensons à la cognition », a déclaré l’auteur de l’étude principale Ariel Goldsteinprofesseur adjoint à l’Université hébraïque de Jérusalem. Les résultats de l’étude suggèrent que « nous devons penser à la cognition à travers l’objectif de ce type de modèle (statistique) », a déclaré Goldstein à Live Science.

Déballage de la cognition

L’étude, publiée le 7 mars dans la revue Nature comportement humaina présenté quatre participants atteints d’épilepsie qui subissaient déjà une intervention chirurgicale pour faire implanter des électrodes de surveillance cérébrale pour des raisons cliniques.

Avec leur consentement, les chercheurs ont enregistré toutes les conversations des patients tout au long de leur séjour à l’hôpital, qui variait de plusieurs jours à une semaine. Ils ont capturé plus de 100 heures d’audio, au total.

Chacun des participants avait installé 104 à 255 électrodes pour surveiller leur activité cérébrale.

La plupart des études qui utilisent des enregistrements de conversations ont lieu dans un laboratoire dans des circonstances très contrôlées sur environ une heure, a déclaré Goldstein. Bien que cet environnement contrôlé puisse être utile pour taquiner les rôles de différentes variables, Goldstein et ses collaborateurs ont voulu « explorer l’activité cérébrale et le comportement humain dans la vie réelle ».

Leur étude a révélé comment différentes parties du cerveau s’engagent pendant les tâches nécessaires pour produire et comprendre la parole.

Goldstein a expliqué qu’il existe un débat en cours quant à savoir si des parties distinctes du cerveau se mettent en marche pendant ces tâches ou si l’organe entier réagit plus collectivement. L’ancienne idée pourrait suggérer qu’une partie du cerveau traite les sons réels qui composent les mots tandis qu’un autre interprète les significations de ces mots, et encore un autre gère les mouvements nécessaires pour parler.

Dans la théorie alternative, c’est plus que ces différentes régions du cerveau travaillent de concert, en prenant une approche « distribuée », a déclaré Goldstein.

Les chercheurs ont constaté que certaines régions cérébrales avaient tendance à être en corrélation avec certaines tâches.

Par exemple, les domaines connus pour être impliqués dans le traitement du son, comme le gyrus temporal supérieur, ont montré plus d’activité lors de la gestion des informations auditives et des zones impliquées dans la pensée de niveau supérieur, comme le gyrus frontal inférieur, étaient plus actifs pour comprendre le sens du langage.

Ils pouvaient également voir que les zones sont devenues actives séquentiellement.

Par exemple, la région la plus chargée d’entendre les mots a été activée devant la région la plus responsable de les interpréter. Cependant, les chercheurs ont également clairement vu des domaines activer lors des activités pour lesquelles ils n’étaient pas connus pour être spécialisés.

« Je pense que c’est la preuve la plus complète et la plus complète et la plus réelle de cette approche distribuée », a déclaré Goldstein.

Lier les modèles d’IA au fonctionnement interne du cerveau

Les chercheurs ont utilisé 80% de l’audio enregistré et des transcriptions d’accompagnement pour former un chuchotement afin qu’il puisse ensuite prédire les transcriptions pour les 20% restants de l’audio.

L’équipe a ensuite examiné comment l’audio et les transcriptions ont été capturés par Whisper et ont cartographié ces représentations à l’activité cérébrale capturée avec les électrodes.

Après cette analyse, ils pourraient utiliser le modèle pour prédire quelle activité cérébrale irait avec des conversations qui n’avaient pas été incluses dans les données de formation. La précision du modèle a dépassé celle d’un modèle basé sur les caractéristiques de la structure du langage.

Bien que les chercheurs n’aient pas programmé ce qu’un phonème ou un mot est dans leur modèle dès le départ, ils ont constaté que ces structures linguistiques se reflétaient dans la façon dont le modèle a élaboré ses transcriptions. Il avait donc extrait ces fonctionnalités sans être dirigée pour le faire.

La recherche est une « étude révolutionnaire car elle démontre un lien entre le fonctionnement d’un modèle de langage acoustique-discours et de fonction cérébrale, » Leonhard Schilbachun chef de groupe de recherche au Munich Center for Neurosciences en Allemagne qui n’a pas été impliqué dans le travail, a déclaré à Live Science dans un e-mail.

Cependant, il a ajouté que « beaucoup plus de recherches sont nécessaires pour déterminer si cette relation implique vraiment des similitudes dans les mécanismes par lesquels les modèles de langue et le langage du processus cérébral ».

« La comparaison du cerveau avec les réseaux de neurones artificiels est une ligne de travail importante », a déclaré Gašper Begušprofesseur agrégé au Département de linguistique de l’Université de Californie à Berkeley qui n’a pas été impliqué dans l’étude.

« Si nous comprenons le fonctionnement interne des neurones artificiels et biologiques et de leurs similitudes, nous pourrions être en mesure de mener des expériences et des simulations qui seraient impossibles à mener dans notre cerveau biologique », a-t-il déclaré à Live Science par e-mail.

Anissa Chauvin