Puissant intelligence artificielle Les modèles (IA) comme ChatGPT nécessitent beaucoup d’énergie pour fonctionner et sont donc généralement hébergés dans de vastes centres de données. Mais une nouvelle avancée pourrait compresser ces modèles d’IA afin qu’ils s’adaptent à un smartphone ou un ordinateur portable.
Un nouvel algorithme, baptisé CALDERA (Calibration Aware Low Precision Decomposition with Low Rank Adaptation), compresse les quantités massives de données nécessaires à l’exécution d’un grand modèle de langage (LLM) en supprimant les redondances dans le code et en réduisant la précision de ses couches d’informations.
Ce LLM plus simple fonctionne avec précision et nuances à des niveaux légèrement inférieurs à ceux de la version non compressée, ont déclaré les scientifiques dans une étude publiée le 24 mai dans la base de données de préimpression. arXivavant une présentation à la Conférence sur les systèmes de traitement de l’information neuronale (NeurIPS) en décembre.
« Chaque fois que vous pouvez réduire la complexité informatique, les besoins de stockage et de bande passante liés à l’utilisation de modèles d’IA, vous pouvez activer l’IA sur des appareils et des systèmes qui autrement ne pourraient pas gérer de telles tâches gourmandes en calcul et en mémoire », co-auteur de l’étude. Andréa Goldsmithprofesseur de génie électrique et informatique à l’Université de Princeton, a déclaré dans un déclaration.
Chaque fois que quelqu’un utilise ChatGPT (pour prendre un exemple populaire) sur son téléphone ou son ordinateur portable, toute demande effectuée est envoyée à d’énormes serveurs distants, où les données sont traitées à un coût environnemental et financier élevé, ont déclaré les scientifiques dans l’étude. En effet, les modèles d’IA de cette taille consomment de grandes quantités de puissance de traitement car ils exploitent des centaines, voire des milliers de composants tels que les unités de traitement graphique (GPU). Par conséquent, pour exécuter ces requêtes à l’aide d’un seul GPU sur un petit appareil, la taille et la portée du modèle d’IA doivent être compressées.
Pour compresser un LLM, CALDERA combine deux techniques. La première technique est « de faible précision », qui réduit le nombre de bits (1 et 0 des données) utilisés pour stocker les informations, ce qui accélère le stockage et le traitement tout en améliorant l’efficacité énergétique, ont indiqué les scientifiques. La seconde, dite « de bas rang », fait référence à la réduction des redondances dans les paramètres d’apprentissage utilisés dans la formation des LLM.
« Nous avons proposé un algorithme générique pour compresser de grands ensembles de données ou de grandes matrices. Et puis nous avons réalisé qu’aujourd’hui, ce ne sont pas seulement les ensembles de données qui sont volumineux, mais les modèles déployés deviennent également volumineux. Nous pourrions donc également utiliser notre algorithme pour compresser ces modèles », co-auteur de l’étude Rajarshi Sahadoctorant à l’Université de Stanford, a déclaré dans le communiqué. « En utilisant ces deux propriétés ensemble, nous sommes en mesure d’obtenir beaucoup plus de compression que ce que chacune de ces techniques peut obtenir individuellement. »
L’équipe a testé l’algorithme sur les modèles open source Llama 2 et Llama 3 de Meta et a enregistré une amélioration allant jusqu’à 5 % par rapport aux algorithmes de compression existants qui n’utilisent qu’une seule des deux techniques. Les résultats pourraient ouvrir la voie au stockage et à l’exécution des LLM sur des smartphones ou des ordinateurs portables à l’avenir, dans les cas où la confidentialité est primordiale et où une précision maximale n’est pas nécessaire.
Cependant, les scientifiques ont averti que les LLM ne sont pas optimisés pour fonctionner efficacement sur de tels appareils.
« Vous ne serez pas heureux si vous dirigez un LLM et que votre téléphone se décharge en une heure. Mais je ne dirais pas qu’il existe une seule technique qui résout tous les problèmes », a déclaré Saha dans le communiqué. « Ce que nous proposons dans cet article est une technique utilisée en combinaison avec les techniques proposées dans des travaux antérieurs. Et je pense que cette combinaison nous permettra d’utiliser plus efficacement les LLM sur les appareils mobiles et d’obtenir des résultats plus précis. »