Abstract digital background featuring flowing blue and green lines with glowing yellow particles, evoking a sense of data flow or neural networks.

La nouvelle architecture d’IA « Dragon Hatchling », calquée sur le cerveau humain, pourrait être une étape clé vers l’AGI, affirment les chercheurs.

Par Anissa Chauvin

Les chercheurs ont conçu un nouveau type de modèle de langage étendu (LLM) qui, selon eux, pourrait combler le fossé entre intelligence artificielle (IA) et une cognition plus humaine.

Appelé « Dragon Hatchling », le modèle est conçu pour simuler plus précisément la façon dont les neurones du cerveau se connectent et se renforcent grâce à l’expérience acquise, selon les chercheurs de la startup d’IA Pathway, qui a développé le modèle. Ils l’ont décrit comme le premier modèle capable de « se généraliser au fil du temps », ce qui signifie qu’il peut ajuster automatiquement son propre câblage neuronal en réponse à de nouvelles informations.

« Il y a beaucoup de discussions en cours sur les modèles de raisonnement spécifiques, les modèles de raisonnement synthétiques aujourd’hui, pour savoir s’ils sont capables d’étendre le raisonnement au-delà des modèles qu’ils ont vus dans la conservation des données, s’ils sont capables de généraliser le raisonnement à des modèles de raisonnement plus complexes et des modèles de raisonnement plus longs.  » Adrien Kosowskico-fondateur et directeur scientifique de Pathway, a déclaré au Podcast SuperDataScience le 7 octobre.

« Les preuves sont en grande partie peu concluantes, la réponse étant un « non » général. Actuellement, les machines ne généralisent pas le raisonnement comme le font les humains, et c’est le grand défi où nous pensons que (les) architectures que nous proposons peuvent faire une réelle différence. « 

Un pas vers l’AGI ?

Apprendre à l’IA à penser comme les humains est l’un des buts les plus prisés sur le terrain. Pourtant, atteindre ce niveau de cognition simulée – souvent appelé intelligence artificielle générale (AGI) – reste insaisissable.

L’un des principaux défis réside dans le fait que la pensée humaine est intrinsèquement désordonnée. Nos pensées nous parviennent rarement sous forme de séquences nettes et linéaires d’informations connectées. Au lieu de cela, le cerveau humain ressemble plus à un enchevêtrement chaotique de pensées, de sensations, d’émotions et d’impulsions qui se chevauchent constamment et qui se disputent constamment l’attention.

Ces dernières années, les LLM ont rapproché l’industrie de l’IA de la simulation du raisonnement humain. Les LLM sont généralement dirigés par modèles de transformateur (transformateurs), un type de apprentissage profond cadre qui permet aux modèles d’IA d’établir des liens entre les mots et les idées au cours d’une conversation. Les transformateurs sont le « cerveau » derrière les outils d’IA générative comme ChatGPTGemini et Claude, leur permettant d’interagir et de répondre aux utilisateurs avec un niveau de « conscience » convaincant (du moins, la plupart du temps).

Bien que les transformateurs soient extrêmement sophistiqués, ils marquent également la limite des capacités d’IA générative existantes. Une des raisons à cela est que ils n’apprennent pas continuellement; une fois qu’un LLM est formé, les paramètres qui le régissent sont verrouillés, ce qui signifie que toute nouvelle connaissance doit être ajoutée par le biais d’un recyclage ou d’un réglage fin. Lorsqu’un LLM rencontre quelque chose de nouveau, il génère simplement une réponse basée sur ce qu’il sait déjà.

Imaginez un dragon

Dragon Hatchling, quant à lui, est conçu pour adapter dynamiquement sa compréhension au-delà de ses données d’entraînement. Pour ce faire, il met à jour ses connexions internes en temps réel à mesure qu’il traite chaque nouvelle entrée, à l’instar de comment les neurones se renforcent ou s’affaiblissent au fil du temps. Cela pourrait soutenir l’apprentissage continu, ont déclaré les chercheurs.

Contrairement aux architectures de transformateur classiques, qui traitent les informations de manière séquentielle à travers des couches de nœuds empilées, l’architecture de Dragon Hatchling se comporte davantage comme un réseau flexible qui se réorganise à mesure que de nouvelles informations apparaissent. De minuscules « particules neuronales » échangent continuellement des informations et ajustent leurs connexions, renforçant certaines et affaiblissant d’autres.

Au fil du temps, de nouvelles voies se forment qui aident le modèle à conserver ce qu’il a appris et à l’appliquer à des situations futures, lui donnant ainsi une sorte de mémoire à court terme qui influence de nouvelles entrées. Cependant, contrairement aux LLM traditionnels, la mémoire de Dragon Hatchling provient d’adaptations continues de son architecture, plutôt que du contexte stocké dans ses données d’entraînement.

Lors des tests, Dragon Hatchling a réalisé des performances similaires à celles de GPT-2 sur les tâches de modélisation et de traduction de langage de référence – un exploit impressionnant pour une toute nouvelle architecture prototype, a noté l’équipe dans l’étude.

Bien que l’article n’ait pas encore été évalué par des pairs, l’équipe espère que le modèle pourrait servir d’étape fondamentale vers des systèmes d’IA qui apprennent et s’adaptent de manière autonome. En théorie, cela pourrait signifier Des modèles d’IA qui deviennent plus intelligents plus ils restent en ligne longtemps — pour le meilleur ou pour le pire.

Anissa Chauvin