Plus nous essayons de faire des modèles d’IA, plus leur empreinte carbone est grande – avec quelques invites produisant jusqu’à 50 fois plus d’émissions de dioxyde de carbone que d’autres, une nouvelle étude a révélé.
Les modèles de raisonnement, tels que Claude d’Anthropic, l’O3 et l’Openai et le R1 de Deepseek, sont des modèles de grands langues (LLM) spécialisés qui consacrent plus de temps et de puissance de calcul à produire Réponses plus précises que leurs prédécesseurs.
Pourtant, à part certains résultats impressionnants, ces modèles se sont fait face grave limites dans leur capacité à serrer des problèmes complexes. Maintenant, une équipe de chercheurs a mis en évidence une autre contrainte sur les performances des modèles – leur empreinte carbone exorbitante. Ils ont publié leurs conclusions le 19 juin dans la revue Frontières en communication.
« L’impact environnemental de la question des LLMS formés est fortement déterminé par leur approche de raisonnement, avec des processus de raisonnement explicites stimulant considérablement la consommation d’énergie et les émissions de carbone », a déclaré l’étude au premier auteur Maximilian Daunerchercheur à Hochschule München University of Applied Sciences en Allemagne, dit dans un communiqué. « Nous avons constaté que les modèles compatibles avec le raisonnement produisaient jusqu’à 50 fois plus d’émissions de CO₂ que les modèles de réponse concise. »
Pour répondre aux invites qui leur ont été données, les LLM divulguent le langage en jetons – des morceaux de mots qui sont convertis en une chaîne de nombres avant d’être introduits dans des réseaux de neurones. Ces réseaux de neurones sont réglés à l’aide de données de formation qui calculent les probabilités de certains modèles apparaissant. Ils utilisent ensuite ces probabilités pour générer des réponses.
Les modèles de raisonnement tentent davantage de stimuler la précision en utilisant un processus connu sous le nom de «chaîne de réflexion». Il s’agit d’une technique qui fonctionne en décomposant un problème complexe en étapes intermédiaires plus petites et plus digestibles qui suivent un flux logique, imitant comment les humains pourraient arriver à la conclusion du même problème.
Cependant, ces modèles ont exigences énergétiques nettement plus élevées que les LLM conventionnelles, posant un goulot d’étranglement économique potentiel pour les entreprises et les utilisateurs qui souhaitent les déployer. Pourtant, malgré certains Recherche sur les impacts environnementaux D’après l’adoption de l’IA croissante plus généralement, les comparaisons entre les empreintes carbone de différents modèles restent relativement rares.
Le coût du raisonnement
Pour examiner les émissions de co₂ produites par différents modèles, les scientifiques derrière la nouvelle étude ont posé 14 questions LLMS 1 000 sur différents sujets. Les différents modèles avaient entre 7 et 72 milliards de paramètres.
Les calculs ont été effectués en utilisant un cadre Perun (qui analyse les performances LLM et l’énergie dont il a besoin) sur un GPU NVIDIA A100. L’équipe a ensuite converti la consommation d’énergie en co₂ en supposant chaque kilowattheure d’énergie produit 480 grammes de co₂.
Leurs résultats montrent que, en moyenne, les modèles de raisonnement ont généré 543,5 jetons par question contre seulement 37,7 jetons pour des modèles plus concis. Ces jetons supplémentaires – équivalant à plus de calculs – signifiaient que les modèles de raisonnement plus précis produisaient plus de co₂.
Le modèle le plus précis était le modèle Cogito de 72 milliards de paramètres, qui a répondu correctement à 84,9% des questions de référence. Cogito a sorti trois fois les émissions de co₂ de modèles de taille similaire faits pour générer des réponses plus concise.
« Actuellement, nous constatons un compromis clairement de la précision de la durabilité inhérent à LLM Technologies », a déclaré Dauner. « Aucun des modèles qui ne conservait des émissions inférieurs à 500 grammes de CO₂ équivalent (gaz à effet de serre total libéré) a atteint une précision supérieure à 80% pour répondre correctement aux 1 000 questions. »
Mais les problèmes vont au-delà de la précision. Des questions qui nécessitaient des temps de raisonnement plus longs, comme dans l’algèbre ou la philosophie, ont fait grimper les émissions six fois plus élevées que les requêtes de recherche simples.
Les calculs des chercheurs montrent également que les émissions dépendaient des modèles choisis. Pour répondre à 60 000 questions, le modèle R1 de 70 milliards de paramètres de Deepseek produirait le CO₂ émis par un vol aller-retour entre New York et Londres. Le modèle QWEN 2.5 du paramètre de 72 milliards d’Alibaba Cloud, cependant, serait en mesure de les répondre avec des taux de précision similaires pour un tiers des émissions.
Les résultats de l’étude ne sont pas définitifs; Les émissions peuvent varier en fonction du matériel utilisé et des réseaux d’énergie utilisés pour fournir leur pouvoir, ont souligné les chercheurs. Mais ils devraient inciter les utilisateurs à réfléchir avant de déployer la technologie, ont noté les chercheurs.
« Si les utilisateurs connaissent le coût exact de leurs résultats générés par l’IA, comme se transformer avec désinvolture en figure d’action, ils pourraient être plus sélectifs et réfléchis sur le moment et la façon dont ils utilisent ces technologies », a déclaré Dauner.