0
Suivez-nous
Intelligence artificielle Les générateurs d’images (IA) sont de plus en plus puissants et s’appuient généralement sur des modèles de langage volumineux (LLM) lourds exécutés dans le cloud. Mais les chercheurs affirment avoir construit un nouveau système capable de générer des images de haute qualité en utilisant environ 10 fois moins d’étapes de traitement.
Le résultat est une IA suffisamment rapide et efficace pour s’exécuter localement sur des téléphones et des ordinateurs portables, tout en étant plus sécurisée et plus respectueuse de l’environnement que l’IA qui s’exécute sur des centres de données gourmands en énergie.
L’article continue ci-dessous
Ils ont expliqué le fonctionnement du nouveau modèle dans une étude mise en ligne le 25 septembre 2025 dans la prépublication. arXiv base de données et annoncé le 4 mars dans un déclaration que Lenovo a obtenu une licence pour l’intégration du modèle dans sa prochaine plate-forme d’IA sur appareil. Cela signifie que ce système apparaîtra bientôt dans les prochains smartphones, tablettes et ordinateurs portables.
L’objectif est simple mais ambitieux : amener une puissante IA générative hors des centres de données distants et sur les appareils que les gens utilisent réellement. Cela a non seulement des implications sur l’impact environnemental et la vie privée, mais pourrait également rendre la génération d’images basée sur l’IA plus rapide que jamais.
Pourquoi la plupart des générateurs d’images IA sont lents
La plupart des systèmes de conversion texte-image modernes reposent sur une technique appelée diffusion. Ces modèles d’IA commencent par du bruit aléatoire – essentiellement une grille de pixels remplie de valeurs aléatoires – et l’affine progressivement en une image à travers une longue séquence d’étapes.
En règle générale, ce processus prend 30 à 50 itérations pour produire une image finie, chaque étape nécessitant une puissance de calcul importante. C’est pourquoi de nombreux outils de génération d’images d’IA populaires fonctionnent sur de grands clusters d’unités de traitement graphique (GPU) sur des serveurs distants via le cloud, plutôt que localement sur un téléphone ou un ordinateur portable.
Atteindre ce niveau d’efficacité est techniquement un défi, car cela nécessite de compresser un modèle de diffusion pour qu’il s’exécute en quelques étapes seulement tout en conservant la qualité.
Hmrishav Bandyopadhyay, doctorant à l’Université de Surrey
Cette architecture fonctionne bien pour produire des images de haute qualité, mais elle crée également des limites pratiques. Les modèles sont plus lents et énergivoreet ils doivent envoyer des invites ou des images à des serveurs distants avant d’attendre une réponse.
Dans la nouvelle étude, les scientifiques ont décidé de s’attaquer à ce goulot d’étranglement. SD3.5-Flash raccourcit considérablement le pipeline de génération. Au lieu de dizaines d’itérations, le modèle peut produire une image en seulement quatre étapes de traitement, ont indiqué les scientifiques.
Ceci est réalisé en compressant le processus de diffusion sous une forme plus efficace tout en préservant la qualité de l’image. Essentiellement, le système apprend à « sauter » à travers le processus de réglage fin par étapes plus importantes plutôt que d’avancer étape par étape. Cependant, selon l’étude, maintenir la qualité visuelle tout en réduisant le nombre d’étapes constitue le principal défi technique.
« Notre modèle SD3.5-Flash permet aux utilisateurs de créer des images à partir de descriptions textuelles entièrement sur leur appareil, sans qu’aucune donnée ne quitte leur matériel », a déclaré Hmrishav Bandyopadhyaydoctorant à l’Université de Surrey qui a développé le modèle lors d’un stage chez Stability AI, dans le communiqué. « Atteindre ce niveau d’efficacité est techniquement un défi, car cela nécessite de compresser un modèle de diffusion pour qu’il s’exécute en quelques étapes seulement tout en conservant la qualité. »
La réduction du nombre d’étapes d’inférence signifie que le modèle nécessite beaucoup moins de ressources de calcul, ce qui permet de l’exécuter sur du matériel grand public.
Plus de confidentialité, de vitesse et de durabilité de l’IA
Exécuter l’IA générative localement plutôt que dans le cloud pourrait présenter plusieurs avantages. Le premier est la confidentialité : si un modèle d’IA s’exécute entièrement sur un appareil, les invites et les images générées n’ont pas besoin d’être envoyées à des serveurs distants, ce qui réduit le risque d’exposition, d’interception ou d’utilisation abusive des données.
Le deuxième est la rapidité : avec moins d’étapes de traitement et aucune latence du réseau, la génération d’images pourrait devenir presque instantanée.
Enfin, il y a un angle environnemental. Les grands modèles d’IA cloud consomment beaucoup d’énergie et d’eau lors des opérations du centre de données, mais les modèles légers exécutés localement peuvent réduire considérablement ces demandes.
Chanson de Yi-Zhedirecteur du SketchX Lab de l’Université de Surrey, a déclaré que l’objectif plus large est de rendre l’IA plus accessible et plus pratique : « SD3.5-Flash met un puissant outil de création directement entre les mains des utilisateurs tout en préservant la confidentialité de leurs données et en réduisant les demandes d’énergie associées au traitement dans le cloud. »
Dans l’étude, l’équipe a testé SD3.5-Flash par rapport aux pipelines de diffusion traditionnels pour mesurer si la réduction drastique des étapes de traitement affectait la qualité des images. Ils ont évalué le système à l’aide de critères standard pour les modèles génératifs, notamment la fidélité de l’image et la mesure dans laquelle les résultats correspondent aux invites textuelles. Ces métriques sont largement utilisées dans la recherche sur l’apprentissage automatique pour comparer différentes approches de génération d’images.
Des tests sur des références standard de génération d’images ont révélé que le modèle pouvait fournir des résultats similaires à ceux des systèmes de diffusion traditionnels, malgré la réduction du nombre d’étapes de traitement d’environ 30 à 50 à seulement quatre.
Plus particulièrement, la technologie se dirige déjà vers de vrais produits. Lenovo a obtenu une licence pour l’intégration du modèle dans son prochain Intelligence ambiante personnelle plate-forme, appelée Qira, qui vise à apporter des capacités d’IA directement aux appareils grand public.
Cela pourrait permettre des fonctionnalités telles que la génération d’images IA sur les ordinateurs portables, les tablettes et les smartphones sans avoir besoin d’une connexion Internet. En mars, l’entreprise a présenté son premier ensemble d’appareils compatibles Qiray compris de nouveaux appareils conceptuels, ce qui suggère qu’il ne faudra pas longtemps avant de voir ce nouveau système d’IA intégré aux ordinateurs portables, tablettes et smartphones.
En cas de succès, cela représenterait un changement plus large dans la manière dont l’IA générative est fournie. Au lieu de s’appuyer sur une infrastructure centralisée, les futurs outils d’IA pourraient de plus en plus fonctionner localement en périphérie, directement intégrés dans les appareils quotidiens. C’est quelque chose que les chercheurs considèrent comme faisant partie d’un effort plus large visant à rendre l’IA générative plus efficace et plus pratique.
La compression de grands modèles sans sacrifier la qualité reste un domaine de recherche actif, mais SD3.5-Flash suggère que l’écart entre les systèmes d’IA puissants et le matériel grand public pourrait se réduire rapidement. Si des entreprises comme Lenovo poursuivent l’intégration d’appareils, la prochaine vague d’outils de créativité IA pourrait ne pas vivre dans le cloud mais dans votre poche.

