Des indices sur nos ancêtres inconnus se cachent dans notre génome


L'apprentissage en profondeur pourrait-il aider les paléontologues et les généticiens à chasser les fantômes?

Lorsque les humains modernes ont émigré pour la première fois hors d'Afrique, il y a 70 000 ans, au moins deux espèces apparentées, aujourd'hui éteintes, les attendaient déjà sur la masse continentale eurasienne. C'étaient les Néandertaliens et les Denisovans, des humains archaïques qui se sont croisés avec ces premiers modernes, laissant aujourd'hui des fragments de leur ADN dans le génome des personnes d'ascendance non africaine.

Quanta Magazine


photo de l'auteur

Sur

Récit original réimprimé avec l'autorisation de Quanta Magazine, une publication indépendante de la Fondation Simons, éditoriale et indépendante, dont la mission est d'améliorer la compréhension du public par la science en couvrant les développements de la recherche et les tendances en mathématiques, en sciences physiques et en sciences de la vie.

Mais il y a eu des allusions croissantes à une histoire encore plus compliquée et colorée: une équipe de chercheurs rapportée dans La nature L'été dernier, par exemple, un fragment d'os découvert dans une grotte de Sibérie appartenait à la fille d'une mère de Néandertal et d'un père de Denisovan. La découverte a été la première preuve fossile d’un hybride humain de première génération.

Malheureusement, il est très rare de trouver de tels fossiles. (Notre connaissance des Denisovans, par exemple, repose sur l'ADN extrait d'un os de doigt.) De nombreux autres appariements ancestraux auraient facilement pu se produire, y compris ceux impliquant des groupes hybrides de croisements antérieurs – mais ils pourraient être pratiquement invisibles lorsqu'il s'agit de preuve physique. Les indices de leur survenue peuvent ne survivre que dans l’ADN de certaines personnes, et même dans ce cas, ils peuvent être plus subtils que les signes des gènes de Neanderthal et de Denisovan. Les modèles statistiques ont aidé les scientifiques à déduire l’existence de deux de ces populations sans données fossiles: par exemple, selon une étude publiée à la fin de 2013, les patrons de variation génétique observés chez les humains anciens et modernes indiquent qu’une population humaine inconnue s’est liée à Denisovans (ou leurs ancêtres). Mais les experts estiment que ces méthodes négligent inévitablement beaucoup aussi.

Qui d’autre a contribué aux génomes d’aujourd’hui? À quoi ressemblaient ces soi-disant populations fantômes, où vivaient-elles et à quelle fréquence interagissaient-elles et s'accouplaient-elles avec d'autres espèces humaines?

Dans un article publié le mois dernier dans Nature Communications, les chercheurs ont montré que les techniques d’apprentissage en profondeur pouvaient permettre de combler certaines des lacunes, des éléments dont les experts n’étaient peut-être même pas au courant. Ils ont utilisé des connaissances approfondies pour découvrir une autre population fantôme: un ancêtre humain inconnu en Eurasie, probablement un hybride Neanderthal-Denisovan ou un parent de la lignée Denisovan.

Les travaux soulignent l’utilité future de l’intelligence artificielle en paléontologie, non seulement pour identifier les fantômes imprévus, mais également pour découvrir les empreintes très délavées des processus évolutifs qui ont façonné ce que nous sommes devenus.

La recherche de signatures subtiles

Les méthodes statistiques actuelles consistent à examiner quatre génomes à la fois pour rechercher des traits communs. C’est un test de similarité, mais pas nécessairement d’ascendance réelle, car il existe de nombreuses façons différentes d’interpréter les petites quantités de mélange génétique qu’elle découvre. Par exemple, de telles analyses pourraient suggérer qu'un Européen moderne partage certains traits avec le génome de Neandertal mais pas un Africain moderne. Mais cela ne veut pas dire que ces gènes sont issus d’un métissage entre les Néandertaliens et les ancêtres des Européens. Ces derniers, par exemple, auraient pu avoir une population différente, proche des Néandertaliens, mais pas des Néandertaliens eux-mêmes.

Nous ne le savons tout simplement pas, car en l’absence de preuves physiques permettant d’indiquer quand, où et comment ces anciennes sources hypothétiques de variation génétique auraient pu vivre, il est difficile de dire laquelle des nombreuses origines inférées possibles est la plus probable. La technique "est puissante en raison de sa simplicité, mais elle en laisse beaucoup sur la compréhension de l'évolution", a déclaré John Hawks, paléoanthropologue à l'Université de Wisconsin-Madison.

La nouvelle méthode d'apprentissage en profondeur tente de faire mieux en cherchant à expliquer les niveaux de flux de gènes trop faibles pour les approches statistiques habituelles et en proposant une gamme de modèles beaucoup plus vaste et complexe à cette fin. Grâce à la formation, le réseau de neurones peut apprendre à classer divers modèles de données génomiques en fonction des antécédents démographiques les plus probables, sans savoir comment établir ces liens.

Cette utilisation de l’apprentissage en profondeur peut permettre de découvrir des fantômes que nous ne soupçonnions même pas. D’une part, il n’ya aucune raison de penser que les Néandertaliens, les Denisovans et les humains modernes étaient les trois seules populations sur la photo. Selon Hawks, il aurait très bien pu y en avoir des dizaines.

Jason Lewis, anthropologue à la Stony Brook University de New York, partage ce point de vue. "Notre imagination a été limitée par notre attention portée sur les personnes vivantes ou sur les fossiles que nous avons trouvés d'Europe, d'Afrique et d'Asie occidentale", a-t-il déclaré. «Ce que les techniques d'apprentissage en profondeur peuvent faire, de manière étrange, consiste à recentrer les possibilités. L’approche n’est plus limitée par notre imagination. "

La valeur réelle des histoires simulées

L’apprentissage en profondeur peut sembler une solution improbable au problème des paléontologues, car de telles méthodes nécessitent normalement d’énormes quantités de données de formation. Prenez l'une de ses applications les plus courantes, en tant que classificateur d'images. Lorsque des experts forment un modèle pour, par exemple, identifier des images de chats, ils disposent de milliers d’images, et ils savent eux-mêmes si cela fonctionne, car ils savent à quoi un chat devrait ressembler.

Mais le manque de données anthropologiques et paléontologiques pertinentes disponibles a forcé les chercheurs qui souhaitaient utiliser l'apprentissage en profondeur pour devenir intelligents, en créant leurs propres données. "Nous jouions plutôt mal", a déclaré Oscar Lao, chercheur au Centre national d'analyse génomique de Barcelone et l'un des auteurs de l'étude. "Nous pouvions utiliser une quantité infinie de données pour former le moteur d'apprentissage en profondeur, car nous utilisions des simulations."

Les chercheurs ont généré des dizaines de milliers d'histoires d'évolution simulées basées sur différentes combinaisons de détails démographiques: le nombre de populations humaines ancestrales, leur taille, leur divergence, leurs taux de mélange, etc. À partir de ces histoires simulées, les scientifiques ont généré un grand nombre de génomes simulés pour les populations actuelles. Ils ont formé leur algorithme d’apprentissage en profondeur sur ces génomes, afin qu’il sache quels types de modèles évolutifs étaient les plus susceptibles de produire des modèles génétiques donnés.

L'équipe a ensuite libéré l'intelligence artificielle pour déduire les historiques qui correspondent le mieux aux données génomiques réelles. Finalement, le système a conclu qu'un groupe humain non identifié auparavant avait également contribué à l'ascendance de personnes d'origine asiatique. D'après les modèles génétiques impliqués, ces humains étaient probablement eux-mêmes soit une population distincte issue du métissage de Denisovans et de Néandertaliens il y a environ 300 000 ans, soit un groupe issu de la lignée Denisovan peu de temps après.

Ce n’est pas la première fois que l’apprentissage en profondeur est utilisé de cette manière. Une poignée de laboratoires sur le terrain ont appliqué des méthodes similaires pour traiter d'autres thèmes d'investigation évolutive. Un groupe de recherche, dirigé par Andrew Kern de l’Université de l’Oregon, a utilisé une approche basée sur la simulation et des techniques d’apprentissage automatique pour différencier divers modèles de la façon dont les espèces, y compris les humains, ont évolué. Ils ont constaté que la plupart des adaptations favorisées par l’évolution ne reposent pas sur l’apparition de nouvelles mutations bénéfiques au sein des populations, mais sur l’expansion de variants génétiques déjà existants.

L'application de l'apprentissage en profondeur "à ces nouvelles questions", a déclaré Kern, "donne des résultats intéressants."

Hype versus espoir pour le nouvel outil

Bien sûr, il y a de grandes mises en garde. D'une part, si l'histoire de l'évolution humaine réelle ne ressemble pas aux modèles simulés sur lesquels ces méthodes d'apprentissage approfondies sont formées, les techniques produiront des résultats incorrects. C’est là un problème que Kern et d’autres tentent de résoudre, mais il reste encore beaucoup à faire pour offrir de meilleures assurances de précision.

"Je pense que l'intelligence artificielle est trop utilisée dans les applications de la génomique", a déclaré Joshua Akey, écologiste et biologiste de l'évolution à l'Université de Princeton. «L’apprentissage en profondeur est un nouvel outil fantastique, mais c’est une autre méthode. Cela ne va pas résoudre tous les mystères et les complications que nous voulons apprendre dans l’évolution humaine. "

Certains experts sont encore plus sceptiques. «J’estime que la densité et la qualité des données ne sont pas idéales pour des analyses non artificielles réfléchies et intelligentes», écrit dans un courrier électronique David Pilbeam, paléontologue de l’Université de Harvard et du Peabody Museum.

Néanmoins, d’autres paléontologues et généticiens estiment que c’est un bon pas en avant, qui pourrait être utilisé pour prédire d’éventuelles découvertes de fossiles et les variations génétiques attendues qui auraient dû exister chez l’homme il ya des milliers d’années. «Je pense que l'apprentissage en profondeur va vraiment donner un coup de pouce à la génétique de population», a déclaré Lao.

Il pourrait en aller de même pour les autres domaines dans lesquels nous avons accès aux données, mais pas le processus qui les a produits. À peu près au même moment où Kern et d’autres généticiens des populations et biologistes de l’évolution développaient des techniques d’IA basées sur la simulation pour répondre à leurs questions, les physiciens le faisaient pour trouver comment passer au crible les tonnes de données produites par le Grand collisionneur de hadrons et d’autres accélérateurs de particules. . Les méthodes de recherche géologique et de prévision sismique ont également commencé à tirer parti de ce type d’approches d’apprentissage en profondeur.

«Je ne sais vraiment pas où cela mène. Nous devrons nous en occuper », a déclaré Nick Patterson, biologiste informaticien au Broad Institute du Massachusetts Institute of Technology et à l’Université Harvard. «Mais il est toujours bon de voir de nouvelles méthodes. Nous utiliserons tout ce que nous pourrons si cela semble être bon pour répondre aux questions auxquelles nous voulons répondre. "

Récit original réimprimé avec l'autorisation de Quanta Magazine, une publication indépendante de la Fondation Simons, éditoriale et indépendante, dont la mission est d'améliorer la compréhension du public par la science en couvrant les développements de la recherche et les tendances en mathématiques, en sciences physiques et en sciences de la vie.


Plus de grandes histoires câblées