The DeepSeek logo appears on a smartphone with the flag of China in the background.

Pourquoi Deepseek change-t-il un tel changement de jeu? Les scientifiques expliquent comment les modèles d’IA fonctionnent et pourquoi ils étaient si bon marché à construire.

Par Anissa Chauvin

Il y a moins de deux semaines, une entreprise chinoise à peine connue a publié son dernier intelligence artificielle (AI) modèle et a envoyé des ondes de choc dans le monde.

Deepseek a réclamé dans un document technique téléchargé sur Github que son modèle R1 à poids ouvert a atteint Résultats comparables ou meilleurs que les modèles AI fabriqués par certains des principaux géants de la Silicon Valley – à savoir le chatppt d’Openai, le lama de Meta et le claude d’Anthropic. Et le plus stupéfiant, le modèle a obtenu ces résultats tout en étant formé et en cours à une fraction du coût.

La réponse du marché aux nouvelles lundi a été nette et brutale: alors que Deepseek a augmenté pour devenir le La plupart d’application gratuite téléchargée Dans l’App Store d’Apple, 1 billion de dollars a été essuyé des évaluations des principales entreprises technologiques américaines.

Et Nvidia, une entreprise qui fabrique des puces graphiques H100 haut de gamme présumées essentielles à la formation IA, a perdu 589 milliards de dollars d’évaluation dans le Plus grande perte de marché d’une journée dans l’histoire des États-Unis. Deepseek, après tout, a déclaré avoir entraîné son modèle AI sans eux – bien qu’il ait utilisé des puces Nvidia moins puissantes. Les entreprises technologiques américaines ont répondu par panique et ire, avec des représentants d’Openai suggérant même que Deepseek Parties plagiées de ses modèles.

Les experts de l’IA disent que l’émergence de Deepseek a bouleversé un dogme clé qui sous-tend l’approche de l’industrie à la croissance – montrant que le plus grand n’est pas toujours mieux.

« Le fait que Deepseek puisse être construit pour moins d’argent, moins de calcul et moins de temps et peut être exécuté localement sur des machines moins chères, soutient que, comme tout le monde courait vers de plus en plus grand, nous avons raté l’occasion de construire plus intelligemment et plus petit »,  » Kristian Hammond, Un professeur d’informatique à la Northwestern University a déclaré à Live Science dans un e-mail.

Mais qu’est-ce qui rend les modèles V3 et R1 de Deepseek si perturbateurs? La clé, disent les scientifiques, est l’efficacité.

Qu’est-ce qui fait vibrer les modèles de Deepseek?

« À certains égards, les avancées de Deepseek sont plus évolutives que révolutionnaires, » Ambuj tewariun professeur de statistiques et d’informatique à l’Université du Michigan, a déclaré à Live Science. « Ils opèrent toujours sous le paradigme dominant de très grands modèles (100s de milliards de paramètres) sur de très grands ensembles de données (milliards de jetons) avec de très gros budgets. »

Si nous prenons les affirmations de Deepseek à sa valeur nominale, a déclaré Tewari, la principale innovation de l’approche de l’entreprise est la façon dont il exerce ses modèles importants et puissants à exécuter ainsi que d’autres systèmes tout en utilisant moins de ressources.

La clé de cela est un système de « mélange d’Experts » qui divise les modèles de Deepseek en sous-modèles spécialisés dans une tâche ou un type de données spécifique. Ceci s’accompagne d’un système portant des charges qui, au lieu d’appliquer une pénalité globale pour ralentir un système surchargé comme d’autres modèles, déplace dynamiquement les tâches des sous-modèles surmenés aux sous-modèles.

« (Ceci) signifie que même si le modèle V3 a 671 milliards de paramètres, seulement 37 milliards sont réellement activés pour un jeton donné », a déclaré Tewari. Un jeton fait référence à une unité de traitement dans un modèle de langue large (LLM), équivalent à un morceau de texte.

La promotion de cet équilibrage de charge est une technique connue sous le nom de «mise à l’échelle de calcul du temps d’inférence», un cadran dans les modèles de Deepseek qui rampe a alloué le calcul ou vers le bas pour correspondre à la complexité d’une tâche attribuée.

Cette efficacité s’étend à la formation des modèles de Deepseek, que les experts citent comme une conséquence involontaire des restrictions d’exportation américaines. L’accès de la Chine aux puces H100 de pointe de Nvidia est limitée, donc Deepseek affirme qu’il a plutôt construit ses modèles à l’aide de puces H800, qui ont un taux de transfert de données de puce à puce réduit. NVIDIA a conçu cette puce « plus faible » en 2023 spécifiquement pour contourner les contrôles d’exportation.

Un type plus efficace de modèle de grande langue

La nécessité d’utiliser ces puces moins puissantes a forcé Deepseek à faire une autre percée importante: son cadre de précision mixte. Au lieu de représenter tous les poids de son modèle (les nombres qui définissent la force de la connexion entre les neurones artificiels d’un modèle d’IA) en utilisant des nombres de points flottants 32 bits (FP32), il a formé une partie de son modèle avec moins de 8 bits 8 bits Nombres (FP8), basnant uniquement à 32 bits pour des calculs plus durs où la précision est importante.

« Cela permet une formation plus rapide avec moins de ressources de calcul »,  » Thomas Caoun professeur de politique technologique à l’Université Tufts, a déclaré à Live Science. « Deepseek a également affiné presque toutes les étapes de son pipeline de formation – chargement des données, stratégies de parallélisation et optimisation de la mémoire – de sorte qu’elle atteint une efficacité très élevée dans la pratique. »

De même, bien qu’il soit courant de former des modèles d’IA en utilisant des étiquettes fournies par l’homme pour marquer la précision des réponses et du raisonnement, le raisonnement de R1 n’est pas supervisé. Il n’utilise que l’exactitude des réponses finales dans des tâches comme les mathématiques et le codage pour son signal de récompense, qui libère des ressources de formation à utiliser ailleurs.

Tout cela s’ajoute à une paire de modèles étonnamment efficace. Tandis que les coûts de formation des concurrents de Deepseek se heurtent au des dizaines de millions à des centaines de millions de dollars Et prennent souvent plusieurs mois, les représentants en profondeur disent que la société a formé la V3 en deux mois pour seulement 5,58 millions de dollars. Les coûts de fonctionnement de Deepseek V3 sont également bas – 21 fois moins cher à courir que Claude 3.5 d’Anthropic Sonnet.

CAO prend soin de noter que la recherche et le développement de Deepseek, qui comprend son matériel et un grand nombre d’expériences d’essai et d’erreur, signifient qu’il a presque certainement dépensé bien plus que ce chiffre de 5,58 millions de dollars. Néanmoins, c’est toujours une baisse suffisamment importante pour avoir attrapé ses concurrents à plat.

Dans l’ensemble, les experts de l’IA affirment que la popularité de Deepseek est probablement un positif net pour l’industrie, ce qui réduit les coûts de ressources exorbitants et réduit la barrière à l’entrée pour les chercheurs et les entreprises. Il pourrait également créer un espace pour plus de chipmakers que Nvidia pour entrer dans la course. Pourtant, il est également livré avec ses propres dangers.

« Alors que des méthodes moins chères et plus efficaces pour développer des modèles d’IA de pointe deviennent accessibles au public, ils peuvent permettre à davantage de chercheurs du monde entier de poursuivre le développement de LLM de pointe, potentiellement accélérer les progrès scientifiques et la création d’applications », a déclaré Cao. « Dans le même temps, cette barrière inférieure à l’entrée soulève de nouveaux défis réglementaires – au-delà de la rivalité américaine-chinoise – sur l’utilisation abusive ou les effets potentiellement déstabilisants de l’IA avancée par les acteurs étatiques et non étatiques. »

Anissa Chauvin