Section 21 Organisation, expression, évolution des génomes. Bioinformatique et biologie des systèmes

II. Évolution des génomes et métagénomique

L'accélération du séquençage de génomes, bénéficiant de la chute des coûts de productions de séquence par des technologies en plein essor, a conduit à un changement d'échelle sans précédent. Il est désormais possible, par exemple, d'envisager le séquençage de toutes les espèces d'un genre pour de nombreux organismes procaryotes comme eucaryotes. On observe ainsi une forte densification des génomes séquencés par phylum, ainsi que de nombreux efforts pour obtenir des génomes de phylum non explorés qui ne présentaient jusqu'alors aucun intérêt autre que taxonomique. De gros projets internationaux de séquençages exploratoires ont ainsi vu le jour : 1KFG, 1 000 génomes fongiques ; i5K, 5 000 génomes d'insectes... Passée la première phase de séquençage massif de génomes qui a parfois généré des données génomiques de qualité très médiocre aussi bien pour leur séquence que pour l'annotation, une prise de conscience s'est faite sur la nécessité de produire des données de meilleure qualité. La possibilité de séquençage en lectures « pairées » de plus en plus distantes ainsi que le développement de nouveaux algorithmes d'assemblage et de prédiction de gènes prenant en compte des données de transcriptomique issues de RNA-seq contribuent désormais à un décryptage plus précis des génomes.

L'obtention d'autant de données génomiques engendre un renouveau des recherches en évolution moléculaire, basées non plus sur une poignée de marqueurs, mais sur l'intégralité des composants d'un génome. De nouveaux concepts pour reconstruire l'arbre de la vie, basés sur des événements évolutifs tels que présence/absence de gènes, transferts horizontaux ou ruptures de synténie sont autant de pistes prometteuses qui devraient enrichir les approches actuelles de phylogénomique.

L'accès à la génomique comparative à des échelles taxonomiques variées a eu de nombreuses conséquences sur la connaissance des mécanismes d'évolution et ce, grâce à de nouvelles méthodes telles que la reconstruction possible in silico du génome des ancêtres communs. Ainsi, les duplications complètes, duplications segmentales, et transferts horizontaux sont mieux caractérisés. L'accumulation de mutations sur des séquences dupliquées dégagées de pression de sélection, peut conduire à la production de protéines différentes de celles codées par les gènes originaux. Elles jouent également un rôle essentiel dans la naissance de nouvelles espèces. La duplication de génomes entiers est un événement rare mais qui a souvent contribué à la diversification des lignages. Les transferts horizontaux notamment des éléments transposables participent largement à la plasticité des génomes Ces mécanismes et leurs conséquences restent cependant encore mal connus. Ainsi la duplication du génome de la truite arc-en-ciel, il y a environ 100 millions d'années, n'a pas été accompagnée de la réorganisation rapide du génome ou de la délétion massive de gènes, comme attendu. D'autres études, utilisant la levure comme modèle, suggèrent que la duplication du génome entier conduit généralement à la subfonctionnalisation des fonctions protéiques, tandis que les duplications segmentales permettraient l'apparition de nouvelles fonctions des produits du gène. La comparaison des génomes de levure a également révélé une fréquence insoupçonnée de génomes hybrides issus d'espèces proches ainsi que d'introgressions de matériel génétique dans des espèces distantes. Ces événements ont été particulièrement mis en évidence chez des espèces d'intérêt biotechnologique soumises à de fortes pressions de sélection. La contribution des équipes françaises dans ce domaine a été majeure.

Le séquençage à grande échelle des génomes conduit également à la résolution de grandes énigmes de l'évolution des espèces, telles le « big bang pré-cambrien », qui a vu l'apparition soudaine des grands groupes d'animaux modernes en seulement 20 millions d'années. C'est l'analyse conjointe des génomes d'arthropodes actuels et de leurs caractéristiques morphologiques qui a ainsi permis la construction de modèles mathématiques concluant à une vitesse d'évolution cinq fois plus rapide lors de l'explosion cambrienne que lors des époques ultérieures.

Le projet de séquençage de 1 000 Génomes humains initié en 2008 a ouvert le champ de la génomique des populations. Le séquençage massif des génomes d'individus au sein d'une population ou issus de populations multiples d'une même espèce, permet, par diverses techniques comme la cartographie QTL (Quantitative Trait Locus) ou les analyses d'association pangénomiques (Genome-wide association studies, GWAS), d'identifier des régions génomiques et des polymorphismes contrôlant l'expression de traits phénotypiques spécifiques de certaines populations ou même d'individus particuliers, que l'expression de ces traits soit constitutive ou dépendante de certaines conditions environnementales. Ces approches ont notamment été utilisées pour appréhender des réponses à traits phénotypiques multiples, définir leur degré de corrélation génétique et mieux connaître les architectures génétiques complexes, comprendre le fonctionnement des réseaux de gènes mis en jeu dans l'élaboration de réponses phénotypiques (en particulier, de réponses adaptatives très diverses), et enfin étudier des mécanismes de plasticité phénotypique, de leur variabilité au sein d'une même espèce ou entre espèces voisines (notion de génomique des populations comparative). En outre, la génomique des populations a fourni un jeu de données sans précédent pour appréhender les mécanismes d'évolution du contenu en nucléotides, pour évaluer les biais de mutations/substitutions en relation avec des processus biologiques tels que réplication ou recombinaison méiotique. La reconstruction récente du génome ancestral du chimpanzé et de l'homme couplée à l'analyse fine des zones de recombinaison a révélé une évolution plus rapide du génome humain par l'intermédiaire du « GC-biased gene conversion » (GBGC). A contrario, l'analyse des populations de D. melanogaster ne révèle aucune trace de GBGC. Le couplage de telles approches dans des phylums différents devrait permettre de comprendre l'évolution et l'impact des processus biologiques sur le modelage des génomes.

Les progrès des techniques de séquençage et de bioinformatique (algorithmes, analyses statistiques, gestion des « big data ») ouvrent de nouvelles voies pour étudier la biodiversité des populations dans un écosystème donné. La métagénomique, discipline en pleine expansion, touche des microbiomes extrêmement variés : intestinal, buccal, du sol, des eaux, des aliments, etc. Donnant accès à une biodiversité insoupçonnée (recensement exhaustif et quantitatif), constituée pour partie d'organismes non cultivables, de virus, et de phages, la métagénomique a engendré un renouveau de la taxonomie et un intérêt pour l'étude de la structure et de l'évolution des populations microbiennes. Depuis le métagénome de la mer des Sargasses en 2004, les projets de métagénomique se sont multipliés de façon explosive ces dernières années, permettant également une meilleure compréhension du fonctionnement (et parfois des dérèglements...) des écosystèmes naturels ou des environnements colonisés par l'homme. La diversité des microorganismes et leurs interactions avec l'environnement ou leur hôte font partie des maillons primordiaux de la diversité biologique, de la qualité de l'eau, des sols ou encore de l'atmosphère, toutes choses qui influencent la santé des êtres vivants et plus particulièrement de l'homme. Ces dernières années ont vu une prise en compte de plus en plus importante de ces microbiomes, de leur diversité, de leur dynamique mais aussi de leur déséquilibre dans de nombreuses pathologies, souvent chroniques, affectant en premier lieu l'appareil digestif mais également la peau, les muqueuses, des voies respiratoires, et même certaines fonctions du système nerveux central. Le fonctionnement du corps humain est donc vu à présent comme le résultat des interactions de l'expression du génome humain, du fonctionnement du microbiome et de l'environnement (notion de métabiome). Mieux comprendre comment des modifications de ces populations microbiennes permettent l'émergence de ces maladies et réussir à modéliser leur dynamique permettra des diagnostics et des traitements mieux adaptés à chacun. Le développement de la métagénomique a déjà permis le séquençage de larges cohortes de génomes humains et de leurs microbiomes associés, au sein de populations en bonne santé ou atteintes de maladies chroniques, et a montré la formidable diversité de ces microbiomes. À l'avenir, ces études permettront de mieux comprendre comment les génomes humains et leurs microbiomes ont co-évolué à travers le temps et dans différentes régions du globe. Pour cela, il est important de coupler métagénomique, métatranscriptomique, et métaprotéomique, afin de collecter des données sur l'activité biologique du métagénome. Ce concept se développe également dans d'autres domaines que la génétique humaine. Permettant de cribler des activités enzymatiques d'intérêt, il est en plein essor pour étudier les mécanismes de résistance aux métaux dans le sol, les réponses des sols aux changements climatiques pour ce qui est de la dégradation de la matière organique, ou encore la diversité fonctionnelle des microorganismes des océans (projet Tara Oceans).