The DeepSeek logo displayed on a smartphone screen.

Des chercheurs chinois viennent de construire un rival open source à Chatgpt en deux mois. La Silicon Valley est paniquée.

Par Anissa Chauvin

La Chine a publié un rival open-source bon marché du Chatgpt d’Openai, et il a des scientifiques excités et la Silicon Valley inquiet.

Deepseek, le laboratoire chinois de l’intelligence artificielle (IA) derrière l’innovation, a dévoilé son modèle de grande langue (LLM) gratuit Deepseek-V3 fin décembre 2024 et affirme qu’il a été construit en deux mois pour seulement 5,58 millions de dollars – une fraction du temps et des coûts requis par ses concurrents de la Silicon Valley.

Après Hot sur ses talons, un modèle encore plus récent appelé Deepseek-R1, sorti lundi 20 janvier. Dans les tests de référence tiers, Deepseek-V3 a égalé les capacités du GPT-4O d’Openai et de Claude Sonnet 3.5 d’Anthropic tout en surpassant les autres, tels que Meta’s Llama 3.1 et Alibaba’s Qwen2.5, dans des tasks qui comprenaient la résolution de problèmes, le codage et le codage.

Maintenant, R1 a également dépassé le dernier modèle O1 de Chatgpt dans plusieurs des mêmes tests. Cette performance impressionnante à une fraction du coût des autres modèles, de sa nature semi-open source et de sa formation sur des unités de traitement graphique (GPU) nettement moins inférieures a séduit les experts de l’IA et a élevé le spectre des modèles d’IA chinois dépassant leurs homologues américains.

« Nous devons retirer les développements de la Chine très, très au sérieux », a déclaré Satya Nadella, PDG de Microsoft, partenaire stratégique d’Openai, lors du Forum économique mondial de Davos, en Suisse, le 22 janvier.

Les systèmes d’IA apprennent à l’aide de données de formation tirées de l’entrée humaine, ce qui leur permet de générer une sortie en fonction des probabilités de différents modèles surgissant dans cet ensemble de données de formation.

Pour les modèles de grande langue, ces données sont du texte. Par exemple, le GPT-3.5 d’OpenAI, qui a été publié en 2023, a été formé sur environ 570 Go de données de texte de la rampe commune du référentiel – ce qui représente environ 300 milliards de mots – tirés de livres, d’articles en ligne, de wikipedia et d’autres pages Web.

Les modèles de raisonnement, tels que R1 et O1, sont une version améliorée des LLM standard qui utilisent une méthode appelée « chaîne de pensée » pour revenir en arrière et réévaluer leur logique, ce qui leur permet de s’attaquer aux tâches plus complexes avec une plus grande précision.

Cela a rendu les modèles de raisonnement populaires parmi les scientifiques et les ingénieurs qui cherchent à intégrer l’IA dans leur travail.

Mais contrairement à l’O1 de Chatgpt, Deepseek est un modèle de « poids ouvert » qui (bien que ses données de formation reste propriétaires) permettent aux utilisateurs de regarder à l’intérieur et de modifier son algorithme. Tout aussi important est son prix réduit pour les utilisateurs – 27 fois moins que O1.

Outre ses performances, le battage médiatique autour de Deepseek provient de sa rentabilité; Le budget restreint du modèle est minuscule par rapport aux dizaines de millions à des centaines de millions que les entreprises rivales ont dépensée pour former ses concurrents.

De plus, les contrôles d’exportation américains, qui limitent l’accès des entreprises chinoises aux meilleures puces informatiques en IA, ont forcé les développeurs de R1 à construire des algorithmes plus intelligents et plus économes en énergie pour compenser leur manque de puissance informatique. Chatgpt aurait eu besoin de 10 000 GPU NVIDIA pour traiter ses données de formation, Deepseek Engineers a déclaré avoir obtenu des résultats similaires avec seulement 2 000.

Combien cela se traduira par des applications scientifiques et techniques utiles, ou si Deepseek a simplement formé son modèle aux tests de référence ACE, reste à voir. Les scientifiques et les investisseurs d’IA veillent attentivement.

Anissa Chauvin