an illustration of a brain in a futuristic, digital style

Les scientifiques affirment avoir éliminé un goulot d’étranglement majeur de l’IA : ils peuvent désormais traiter les calculs « à la vitesse de la lumière ».

Par Anissa Chauvin

Les scientifiques ont développé une architecture fondamentale pour l’informatique optique de nouvelle génération – utilisant la lumière plutôt que l’électricité pour alimenter les puces – qui pourrait révolutionner la façon dont intelligence artificielle (IA) les modèles sont formés et exécutés.

Au cœur des grands modèles de langage (LLM) et de ceux basés sur le deep learning se trouve une structure organisationnelle pondérée appelée « tenseur » qui fonctionne comme un classeur avec des notes autocollantes indiquant quels tiroirs sont les plus utilisés.

Lorsqu’un modèle d’IA est entraîné pour exécuter une tâche ou une fonction, comme reconnaître une image ou prédire une chaîne de texte, il trie les données selon ces tenseurs. Dans les systèmes d’IA modernes, la vitesse à laquelle les modèles peuvent traiter les données tensorielles – ou trier les classeurs – constitue un goulot d’étranglement fondamental en termes de performances qui représente une limite stricte à la taille qu’un modèle peut atteindre.

Dans le calcul typique basé sur la lumière, les modèles analysent les tenseurs en déclenchant plusieurs fois des réseaux laser. Ils fonctionnent comme une machine qui scanne un code-barres sur un emballage pour déterminer son contenu, sauf que dans ce cas, chaque conteneur fait référence à un problème mathématique. La quantité de puissance de traitement nécessaire pour traiter ces chiffres dépend des capacités inhérentes des modèles.

Bien que l’informatique basée sur la lumière soit plus rapide et plus économe en énergie à des échelles plus petites, la plupart des systèmes optiques ne peuvent pas fonctionner en parallèle. Contrairement aux unités de traitement graphique (GPU), qui peuvent être chaînées pour augmenter de manière exponentielle la quantité et la disponibilité de la puissance de traitement, les systèmes basés sur la lumière fonctionnent généralement de manière linéaire. Pour cette raison, la plupart des développeurs rejettent l’informatique optique en faveur des avantages du traitement parallèle liés à une puissance accrue à grande échelle.

Ce goulot d’étranglement en matière de mise à l’échelle explique pourquoi les modèles les plus puissants créés par OpenAI, Anthropic, Google et xAI nécessitent des milliers de GPU fonctionnant en tandem pour s’entraîner et fonctionner.

Mais la nouvelle architecture, appelée POMMM (Parallel Optical Matrix-Matrix Multiplication), pourrait éliminer le problème qui freine l’informatique optique. Contrairement aux méthodes optiques précédentes, il effectue simultanément plusieurs opérations tensorielles à l’aide d’une seule rafale laser.

Le résultat est une conception matérielle fondamentale d’IA avec le potentiel d’étendre la vitesse de traitement tenseur d’un système d’IA donné au-delà des capacités matérielles électroniques de pointe tout en réduisant son empreinte énergétique.

Informatique optique et matériel d’IA de nouvelle génération

L’étude, publiée le 14 novembre dans la revue Photonique naturelledétaille les résultats d’un prototype expérimental de calcul optique ainsi qu’une série de tests comparatifs par rapport aux schémas de traitement optiques et GPU standard.

Les scientifiques ont utilisé un agencement spécifique de composants matériels optiques conventionnels ainsi qu’une nouvelle méthode de codage et de traitement pour capturer et analyser les packages tensoriels en un seul tir laser.

Ils ont réussi à coder des données numériques dans l’amplitude et la phase des ondes lumineuses, transformant les données en propriétés physiques dans le domaine optique – ces ondes lumineuses se combinant pour effectuer des opérations mathématiques telles que des multiplications matricielles ou tensorielles.

Ces opérations optiques ne nécessitent pas de puissance supplémentaire pour être traitées dans ce paradigme, car elles se produisent passivement au fur et à mesure que la lumière se propage. Cela élimine le besoin de contrôle ou de commutation pendant le traitement, ainsi que la puissance requise pour exécuter ces fonctions.

« Cette approche peut être mise en œuvre sur presque toutes les plates-formes optiques », a déclaré l’auteur principal de l’étude, Zhipei Sun, responsable du groupe photonique de l’université Aalto. déclaration. « À l’avenir, nous prévoyons d’intégrer ce cadre informatique directement sur des puces photoniques, permettant aux processeurs basés sur la lumière d’effectuer des tâches d’IA complexes avec une consommation d’énergie extrêmement faible. »

Zhang estime que cette approche pourrait être intégrée aux principales plates-formes d’IA d’ici trois à cinq ans.

Un accélérateur d’intelligence artificielle générale

Les représentants ont décrit cela comme une étape vers l’intelligence générale artificielle (AGI) de nouvelle génération – un futur système d’IA hypothétique qui est plus intelligent que les humains et peut généralement apprendre dans plusieurs disciplines, indépendamment de ses données de formation.

Zhang a ajouté dans le communiqué : « Cela créera une nouvelle génération de systèmes informatiques optiques, accélérant considérablement les tâches complexes d’IA dans une myriade de domaines. »

Bien que le document lui-même ne mentionne pas spécifiquement l’AGI, il fait référence à plusieurs reprises à l’informatique à usage général.

L’idée selon laquelle la mise à l’échelle des techniques actuelles de développement de l’IA constitue une voie viable vers la réalisation de l’AGI est si répandue dans certains secteurs de la communauté informatique qu’on peut acheter des t-shirts proclamant que « la mise à l’échelle est tout ce dont vous avez besoin« .

D’autres scientifiques, comme le scientifique en chef sortant de l’IA de Meta Yann LeCunen désaccord, affirmant que les LLM – l’architecture d’IA de référence actuelle – n’atteindront jamais le statut d’AGI, quelle que soit leur ampleur et leur profondeur.

Avec POMMM, les scientifiques affirment qu’ils pourraient disposer d’une pièce essentielle du puzzle matériel nécessaire pour éliminer l’un des plus grands goulots d’étranglement du domaine, permettant ainsi aux développeurs d’évoluer bien au-delà des limites fondamentales du paradigme actuel.

Anissa Chauvin