Vingt-deux ans après la fin du projet du génome humain, les scientifiques ont dévoilé le catalogue le plus vaste de la variation génétique humaine jamais compilée.
Dans deux nouveaux articles publiés mercredi 23 juillet dans la revue Nature, les scientifiques ont séquencé l’ADN de 1 084 personnes dans le monde. Ils ont mis à profit les progrès technologiques récents pour analyser de longues étirements de matériel génétique de chaque personne, cousu ces fragments ensemble et comparé les génomes résultants en détail.
Les résultats approfondissent notre compréhension des «variantes structurelles» au sein du génome humain. Plutôt que d’affecter une seule « lettre » dans le code de l’ADN, de telles variations affectent les gros morceaux du code – ils peuvent être supprimés ou ajoutés au génome, ou englober des endroits où l’ADN a été renversé ou déplacé vers un endroit différent.
Les études ont révélé des caractéristiques « cachées » du génome humain qui étaient auparavant trop difficiles sur le plan technologique pour étudier, a déclaré Jan Korbella tête intérimaire de Laboratoire européen de biologie moléculaire (EMBL) Heidelbergqui est co-auteur des deux nouveaux articles. Par exemple, de grandes parties du génome contiennent des codes qui se répètent encore et encore, et celles-ci étaient considérées comme non fonctionnelles.
« Il y a une vingtaine d’années, nous avons considéré cela comme un » ADN indésirable « – nous lui avons donné un très mauvais terme », a déclaré Korbel à Live Science. « Il y a de plus en plus la prise de conscience que ces séquences ne sont pas indésirables », et le nouveau travail met en lumière ces séquences d’ADN à long terme.
De plus, toutes les données générées dans les nouvelles études sont en libre accès, de sorte que d’autres dans le domaine peuvent désormais prendre « les résultats, certains des outils que nous avons développés et les utiliser à leurs fins pour comprendre la base génétique de la maladie », a déclaré Korbel à Live Science. « Je crois entièrement que les progrès que nous publions dans la nature aujourd’hui, un sous-ensemble de ceux-ci feront également des diagnostics. »
Plus de 1 000 génomes
Lorsque la première ébauche d’un génome humain « complet » a été publiée en 2003, il manquait en fait environ 15% de sa séquence en raison des limites technologiques de l’époque. En 2013, les scientifiques ont réussi à combler cet écart d’environ la moitié. Et enfin, en 2022, le premier génome humain « sans espace » a été publié.
En 2023, les chercheurs ont publié le Première ébauche d’un pangenome humainqui a incorporé l’ADN de 47 personnes du monde entier, plutôt que de se baser principalement sur l’ADN d’une personne. Et la même année, les chercheurs ont publié le Premier chromosome Y qui avait jamais été séquencé de bout en boutparce que le génome «sans espace» précédent manquait toujours le chromosome sexuel masculin.
Au cours des dernières années, le domaine a continué de progresser, grâce aux nouvelles technologies et aux efforts visant à étendre l’échantillonnage de l’ADN au-delà des populations d’origine principalement européenne. Ces progrès ont annoncé les deux articles publiés dans Nature cette semaine.
Dans la première étude, les chercheurs séquencé l’ADN de 1 019 personnes représentant 26 populations sur cinq continents. Pour analyser l’ADN, les chercheurs ont collecté « Longues lectures », chacune composée de dizaines de milliers de paires de bases; Une paire de bases correspond à un échelon dans l’échelle en spirale d’une molécule d’ADN.
« Avec des lectures courtes sur environ 100 paires de bases, il est difficile de faire la distinction entre les régions génomiques qui se ressemblent », a expliqué le co-auteur de l’étude Jésus Emiliano Sotelo-Fonsecadoctorant au Center for Genomic Regulation (CGR) à Barcelone, Espagne. C’est particulièrement vrai dans les régions répétitives du génome. « Avec des lectures plus longues, d’environ 20 000 paires de bases, attribuer chaque lecture à une position unique dans le génome devient beaucoup plus facile », a-t-il déclaré à Live Science dans un e-mail.
Plus de la moitié de la nouvelle variation génomique découverte dans l’étude a été trouvée dans ces régions répétitives délicates, y compris dans les transposons, également connus sous le nom de gènes de saut. Les transposons peuvent sauter à différents endroits dans le génome, copier et coller leur code. Parfois, selon l’endroit où ils atterrissent, ils peuvent déstabiliser le génome, introduire des mutations nocives et contribuer à des maladies comme le cancer.
« Notre étude révèle que certains de ces transposons peuvent détourner des séquences de régulation pour augmenter leur activité, contribuant à comprendre les mécanismes biologiques derrière leur mutagénicité » ou la capacité de déclencher des mutations, le co-auteur de l’étude Bernardo Rodríguez-Martínun boursier indépendant chez CGR et un ancien postdoc du laboratoire EMBL de Korbel, a déclaré à Live Science dans un e-mail.
Les gènes de saut peuvent essentiellement être atteints d’une balade avec certaines molécules régulatrices – longs ARN non codants – et utiliser cette astuce pour faire beaucoup plus de copies d’eux-mêmes qu’elles ne le feraient habituellement. « C’est un mécanisme très surprenant pour nous », a déclaré Korbel.
De 95% à 99%
La deuxième étude comportait beaucoup moins de génomes – seulement 65 au total – mais séquencé ces génomes de manière plus globale que la première étude. La première étude a capturé environ 95% de chaque génome analysé, tandis que la deuxième étude a généré des génomes complets à 99%.
« Cela peut ressembler à une petite différence, mais c’est énorme du point de vue du scientifique du génome », a déclaré Korbel. « Pour obtenir les derniers pourcentages, c’est une réalisation majeure. »
Ce saut a nécessité différentes techniques de séquençage, ainsi que de nouvelles approches analytiques. « Ce projet a utilisé un logiciel de pointe pour assembler les génomes et identifier la variation génétique, dont une grande partie n’existait pas il y a quelques années », a déclaré le co-auteur Charles Leeun professeur au Jackson Laboratory for Genomic Medicine, a déclaré à Live Science dans un e-mail.
Les techniques de séquençage en incluaient une qui a généré de longues lectures avec très peu d’erreurs et une qui a généré des lectures ultralongues qui étaient légèrement plus sujettes aux erreurs. Au détriment de l’analyse de moins de génomes, cette approche a néanmoins permis à la deuxième étude de capturer des étirements d’ADN qui ont été totalement manqués dans le premier, a déclaré Rodríguez-Martín.
Ces régions « cachées » comprenaient le centromèresstructures importantes dans les centres de chromosomes qui sont essentiels pour la division cellulaire. À mesure qu’une cellule se prépare à se diviser, les fibres se fixent aux centromères puis tirent le chromosome en deux. L’étude a révélé que, dans environ 7% des centromères, il y a probablement deux endroits où ces fibres peuvent se fixer, au lieu d’une seule.
« Cela pourrait-il signifier que ces chromosomes sont plus instables? Parce que si la broche (fibre) s’attache à deux points, cela pourrait être confus », a déclaré Korbel. C’est une idée purement spéculative, a-t-il ajouté, mais c’est celle qui peut maintenant être explorée. La prochaine étape consistera à étudier les effets de ces variations de centromères expérimentalement, a accepté Lee.
Surveiller
Les problèmes de division des chromosomes peuvent conduire à diverses conditions. Par exemple, « le syndrome de Down est le résultat d’une erreur de ségrégation des chromosomes pendant la division cellulaire dans la méiose », lorsque les cellules se divisent pour former des spermatozoïdes et des œufs, co-auteur Dr Miriam Konkelun professeur adjoint au Clemson University Center for Human Genetics, a déclaré à Live Science dans un e-mail.
Comme la première étude, la deuxième étude a également fourni un aperçu sans précédent des gènes de saut, cataloguant plus de 12 900. Au-delà du cancer, les gènes sauter peuvent également déclencher diverses maladies génétiques En provoquant des mutations, ainsi que des changements plus subtils dans la façon dont les gènes sont allumés et désactivés, a noté Konkel. Une meilleure compréhension de la diversité des gènes de saut peut aider à déballer leur fonction dans la santé et les maladies humaines.
En regardant les deux études, les scientifiques peuvent désormais comparer les génomes nouvellement séquencés à d’autres ensembles de données qui incluent à la fois les données du génome et de la santé, a noté Korbel. Ce serait la première étape vers le lien entre les nouvelles variations structurelles des résultats de santé tangibles et, éventuellement, l’intégration de ces informations dans la pratique médicale.
« Certaines études cliniques ne pourront pas ignorer ces techniques (de séquençage) car elles leur donneront une sensibilité plus élevée pour identifier les variations », a déclaré Korbel. « Vous ne voulez pas manquer de variantes. »
Il y a encore plus de travail à faire pour améliorer les données génomiques, également, a ajouté Lee. Plus d’ADN pourrait être incorporé à partir de populations sous-représentées, et les techniques de séquençage et les logiciels pourraient être affinés pour rendre le processus plus efficace et précis. Mais en attendant, la paire de nouvelles études marque un exploit technologique majeur.
« Ces outils avancés ont été développés récemment pour gérer les énormes quantités de données à lecture longue que nous utilisons maintenant pour chaque génome », a déclaré Lee. « Il y a quelques années, assembler un chromosome humain complet de bout en bout, en particulier l’inclusion des centromères, était pratiquement inaccessible parce que les logiciels et les algorithmes n’étaient pas encore mûrs. »

