Les chercheurs ont construit une nouvelle plate-forme de « simulation multivers » capable de générer d’énormes quantités de données pour former des robots avancés à auto-apprentissage alimentés par intelligence artificielle (IA).
La suite d’outils, baptisée « Cosmos », permet aux chercheurs de créer des « modèles de fondation du monde » – des réseaux de neurones qui simulent des environnements du monde réel et les lois de la physique pour prédire des résultats réalistes, selon Nvidia, qui a conçu la plateforme. Ces modèles d’IA génératifs peuvent créer des données synthétiques pour entraîner systèmes d’IA incarnés ou physiques tels que les véhicules autonomes (AV) ou les robots humanoïdes.
La formation des systèmes d’IA nécessite d’énormes quantités de données, mais les scientifiques estiment que nous pourrait manquer de données accessibles au public d’ici 2026. Les systèmes d’IA qui interagissent avec le monde réel, comme les robots, ont généralement besoin d’images du monde réel incroyablement difficiles à produire et coûteuses à acquérir.
Mais créer des données synthétiques véritablement utiles est également un défi, et une étude a déjà averti que utiliser des données synthétiques mal interprétées pourrait se transformer en une absurdité inintelligible. Cosmos est conçu pour résoudre ces problèmes en permettant aux scientifiques de générer rapidement une quantité monumentale de séquences vidéo artificielles basées sur la physique du monde réel.
« Les développeurs humanoïdes d’aujourd’hui ont des centaines d’opérateurs humains qui effectuent des milliers de démonstrations répétitives juste pour enseigner quelques compétences », Révérend Lebaredianvice-président d’Omniverse et de la technologie de simulation chez Nvidia, a déclaré lors d’une conférence de presse virtuelle lundi 6 janvier au CES 2025 à Las Vegas. « Les développeurs audiovisuels d’aujourd’hui doivent parcourir des millions de kilomètres ; le traitement, le filtrage et l’étiquetage des milliers de pétaoctets de données capturées nécessitent encore plus de ressources, et les tests physiques sont dangereux. Les développeurs humanoïdes ont beaucoup à perdre lorsqu’un prototype de robot peut coûter des centaines d’euros. de milliers de dollars. »
Simuler le multivers
Un élément clé de cette nouvelle plateforme est la simulation multivers, dans laquelle Cosmos se combine avec le système logiciel Omniverse de Nvidia pour générer tous les résultats futurs possibles dans un scénario spécifique. Ces informations seraient ensuite intégrées à la formation d’un robot ou d’une voiture autonome.
Il utilise des modèles de diffusion utilisés dans la génération d’images – des algorithmes d’apprentissage automatique qui génèrent des données en ajoutant du « bruit » (spécifications granuleuses) à un ensemble de données, puis en apprenant à supprimer le bruit – ainsi que des modèles autorégressifs, qui sont des modèles statistiques utilisés pour prédire le prochain. étape dans un processus. Ensemble, la plate-forme peut enregistrer du texte, des images ou des vidéos, puis générer des images pour prédire en temps réel ce qui va suivre dans un scénario particulier.
« Le moment ChatGPT pour la robotique arrive. Comme les grands modèles de langage, les modèles de base mondiaux sont fondamentaux pour faire progresser le développement des robots et de l’audiovisuel, mais tous les développeurs n’ont pas l’expertise et les ressources nécessaires pour former les leurs. » Jensen Huangfondateur et PDG de Nvidia, a déclaré dans un communiqué. « Nous avons créé Cosmos pour démocratiser l’IA physique et mettre la robotique générale à la portée de chaque développeur. »
Les modèles de fondations mondiales créés à l’aide de Cosmos sont également disponibles sous conditions de licence open source.