Les scientifiques ont développé un nouveau type de modèle d’apprentissage automatique capable de comprendre et de concevoir des instructions génétiques.
Le modèle, baptisé Evo, peut prédire les effets des mutations génétiques et générer de nouvelles séquences d’ADN, bien que ces séquences d’ADN ne correspondent pas étroitement à l’ADN des organismes vivants.
Cependant, avec du temps et de la formation, Evo et des modèles similaires pourraient aider les scientifiques à comprendre les fonctions de diverses séquences d’ADN et d’ARN et à atténuer les maladies, ont écrit les chercheurs dans une nouvelle étude publiée le 15 novembre dans la revue Science.
Evo est un type de intelligence artificielle (IA) appelé grand modèle de langage (LLM), similaire au GPT-4 d’OpenAI ou à celui de Google. Gémeaux. Les chercheurs et les développeurs forment les LLM sur de grandes quantités de données provenant de ressources accessibles au public, comme Internet, et les LLM recherchent des modèles tels que des phrases courantes ou des structures de phrases typiques, en utilisant ces modèles pour fournir les mots d’une phrase un par un.
Contrairement aux LLM plus courants, Evo n’est pas formé aux mots. Au lieu de cela, il est formé sur le génome de millions de microbes – les archées, les bactéries et les virus qui les infectent, mais pas sur les organismes eucaryotes comme les plantes et les animaux. Chaque paire de bases – les unités chimiques de base qui composent l’ADN – de ces génomes agit comme un « mot » dans le modèle. Evo compare ensuite les séquences de paires de bases à son ensemble d’entraînement pour prédire le fonctionnement d’un brin d’ADN ou pour générer un nouveau matériel génétique.
D’autres modèles ont déjà utilisé l’apprentissage automatique et même les LLM pour examiner les informations génétiques. Mais jusqu’à présent, ils ont été limités à des fonctions spécialisées ou entravés par un coût de calcul élevé, écrivent les scientifiques dans l’étude. Evo, en revanche, utilise un modèle rapide et haute résolution pour traiter de longues chaînes d’informations, ce qui lui permet d’analyser des modèles à l’échelle du génome et de capturer des informations sur les interactions à grande échelle que des modèles plus spécialisés pourraient manquer.
Les auteurs ont testé Evo sur une série de tâches. Evo a prédit comment les mutations génétiques affecteraient les structures protéiques, avec des performances comparables à celles des modèles formés spécifiquement pour cette tâche. Il a également généré un ensemble de composants protéiques et ARN qui protègent contre les infections virales lors de tests en laboratoire.
Evo a même généré des séquences d’ADN de la taille d’un génome entier, mais cet ADN ne maintiendrait pas nécessairement quelque chose en vie. Certaines instructions génétiques étaient similaires à l’ADN des organismes existants. D’autres semblaient similaires à première vue mais n’avaient aucun sens après une inspection plus approfondie, semblables à une image générée par l’IA d’une personne avec trop de doigts. Par exemple, de nombreuses structures protéiques codées dans l’ADN généré par Evo ne correspondent pas aux protéines naturelles.
« Ces échantillons représentent une ‘image floue’ d’un génome qui contient des caractéristiques clés mais qui manque des détails plus fins typiques des génomes naturels », ont écrit les chercheurs dans l’étude.
Ils ont également formé Evo uniquement sur les génomes microbiens, de sorte que prédire les effets des mutations génétiques humaines est toujours hors de portée. De manière critique, l’équipe a souligné la nécessité de directives de sécurité et d’éthique pour empêcher que des outils comme Evo ne soient utilisés à mauvais escient à mesure que leurs performances s’améliorent. En particulier, l’équipe a exclu les données sur les génomes viraux qui infectent hôtes eucaryotes.
« Une discussion proactive impliquant la communauté scientifique, les experts en sécurité et les décideurs politiques est impérative pour prévenir les abus et promouvoir des stratégies efficaces pour atténuer les menaces existantes et émergentes », ont écrit les chercheurs.