Un intelligence artificielle (AI) a simulé un demi-milliard d’années d’évolution moléculaire pour créer le code pour une protéine précédemment inconnue, selon une nouvelle étude. La protéine brillante, similaire à celle trouvée dans les méduses et les coraux, peut aider à développer de nouveaux médicaments, selon des chercheurs.
Les protéines sont l’un des éléments constitutifs de la vie et remplissent diverses fonctions dans le corps, comme développer les muscles et la lutte contre la maladie. La protéine simulée, nommée ESMGFP, n’existe que sous forme de code informatique, mais contient le plan pour un type de protéine fluorescent vert auparavant inconnu. Dans la nature, les protéines fluorescentes vertes donnent aux méduses fluorescentes et aux coraux de leur lueur.
La séquence de lettres qui expliquent les instructions pour fabriquer ESMGFP ne sont que 58% similaires à la protéine fluorescente la plus proche connue, qui est une version modifiée par l’homme d’une protéine trouvée dans les anémones de mer à pointe bulle (Entacmaea quadricolor) – Des créatures marines colorées qui semblent avoir des bulles aux extrémités de leurs tentacules. Le reste de la séquence est unique et nécessiterait un total de 96 mutations génétiques différentes pour évoluer. Ces changements auraient pris plus de 500 millions d’années pour évoluer naturellement, selon l’étude.
Des chercheurs d’une entreprise appelée Échelle évolutionniste ESMGFP dévoilé et le modèle AI utilisé pour le créer, ESM3, dans une étude préimprémit l’année dernière. Les scientifiques indépendants ont maintenant évalué ces résultats, qui ont été publiés le 16 janvier dans la revue Science.
ESM3 ne conçoit pas de protéines dans les contraintes habituelles de l’évolution. Au lieu de cela, c’est un résolveur de problèmes qui comble les lacunes du code de protéines incomplet fourni par les chercheurs, et ce faisant, il conçoit quelque chose qui pourrait exister sur la base de toutes les voies potentielles que l’évolution pourrait prendre.
« Nous avons constaté que l’ESM3 apprend la biologie fondamentale et peut générer des protéines fonctionnelles en dehors de l’espace exploré par Evolution », co-auteur de l’étude Alex Rivesle co-fondateur et scientifique en chef de l’échelle évolutionnaire, a déclaré à Live Science dans un e-mail.
La nouvelle étude s’appuie sur des recherches qui se détachent et ses collègues a commencé à Metala société mère de Facebook et Instagram, avant de commencer l’échelle évolutionnaire en 2024. ESM3 est leur dernière version d’un modèle de langue générative similaire au GPT-4 d’OpenAI, qui gère le chatppt, mais il est basé sur la biologie.
Les protéines sont constituées de chaînes de molécules appelées acides aminés, dont la séquence est fournie par les gènes. Différentes protéines ont différentes séquences d’acides aminés. Ils diffèrent également structurellement, chacun se repliant en une forme unique qui leur permet de remplir leur fonction, selon Éducation de la nature. Pour que ESM3 comprenne les protéines, les chercheurs ont nourri les données du modèle sur les principales propriétés d’une protéine – séquence, structure et fonction des acides aminés – comme une série de lettres.
L’équipe a formé ESM3 sur les données de 2,78 milliards de protéines trouvées dans la nature. Les chercheurs ont ensuite caché des parties au hasard d’un plan de protéine et ont eu ESM3 brancher les lacunes pour compléter le code en fonction de ce qu’il avait appris.
« De la même manière qu’une personne peut remplir les blancs dans le soliloque » à _ ou non à _, c’est-à-dire le _ « , nous pouvons former un modèle de langue pour remplir les blancs des protéines », a déclaré Rives. « Nos recherches ont montré qu’en résolvant cette tâche simple, des informations sur la structure profonde de la biologie des protéines émergent dans le réseau. »
Les scientifiques modifient déjà les protéines naturelles et en ingénient de nouvelles à diverses fins. Par exemple, les protéines fluorescentes vertes sont largement utilisées dans les laboratoires de recherche. Leur code génétique est souvent ajouté aux extrémités d’autres séquences d’ADN pour tourner les protéines qu’ils codent pour le vert. Cela permet aux scientifiques de suivre facilement les protéines et les processus cellulaires. Rives a noté que les capacités de l’ESM3 peuvent accélérer un large éventail d’applications pour l’ingénierie des protéines, notamment en aidant à concevoir de nouveaux médicaments.
Tiffany Taylorun biologiste évolutif à l’Université de Bath au Royaume-Uni qui n’a pas été impliqué dans la recherche, a rendu compte de la version préalable de l’étude pour les sciences live en 2024. Dans son analyse, Taylor a écrit que des modèles d’IA comme ESM3 permettra des innovations en protéines Ingénierie que l’évolution ne peut pas. Cependant, elle a également noté que la prétention des chercheurs de simuler 500 millions d’années d’évolution est axée uniquement sur les protéines individuelles et ne tient pas compte des nombreuses étapes de la sélection naturelle qui créent finalement la vie.
« L’ingénierie des protéines basée sur l’IA est intrigante, mais je ne peux m’empêcher de penser que nous pourrions être trop confiants en supposant que nous pouvons déjouer les processus complexes perfectionnés par des millions d’années de sélection naturelle », a déclaré Taylor.