Rapport de conjoncture 2019

Section 21 Organisation, Expression, Évolution des génomes. Bioinformatique et Biologie des systèmes

Composition de la Section

Hugues Roest Crollius (président de Section) ; Dominique Weil (secrétaire scientifique) ; Julien Bischerour ; Déborah Bourc’his ; Emmanuelle Bouveret ; Nathalie Campo ; Karim Chebli ; Sandra Duharcourt ; Maryline Foglino ; Patrick Garilio ; Corinne Grey ; Aline Huber ; Romain Koszul ; Ingrid Lafontaine ; Emmanuelle Lerat ; Giuseppina Mari ; Olivier Namy ; Catherine Laure Tomasetto ; Marie Vandromme ; Chantal Vaury ; Michel Werner.

Résumé

La section 21 couvre des thématiques dont la dynamique s’est accélérée ces dernières années. Des transformations technologiques importantes ont notamment vu le jour dans le domaine des analyses `omiques’ en cellule unique, dans la démultiplication des techniques liées au séquençage de deuxième et troisième génération et dans les approches d’édition des génomes. Nous sommes en mesure d’explorer la biologie du génome sous des angles inédits, et surtout à une échelle encore inimaginable il y a peu. Cette situation est un terrain fertile pour le développement de méthodes d’apprentissage automatique et d’intelligence artificielle en bioinformatique. Simultanément, nos connaissances ont réalisé de nombreuses avancées marquantes, que ce soit dans l’organisation 3D du noyau, la régulation épigénétique, les rôles et la régulation des ARN, ou dans l’émergence en biologie du concept de transition de phase, ou la variabilité génétique passée et présente du vivant. Face à ce paysage en évolution rapide les laboratoires doivent s’adapter, et ils ont pour cela besoin d’un soutien institutionnel fort.

Introduction

Le génome, son organisation et son expression sont par excellence des sujets de recherche à la croisée de très nombreuses disciplines. Une observation le traduit peut-être mieux que toute autre : la section 21 est l’une des deux sections du Comité National dont les candidats aux concours chercheur postulent le plus souvent dans une deuxième section (source S. Harrisson, 2019). Les avancées obtenues dans d’autres disciplines (biophysique, biologie cellulaire, évolution…) irriguent donc la recherche sur le génome. Réciproquement, les résultats obtenus sur la biologie de l’ADN et son expression alimentent de nombreuses autres branches de la recherche. Mais ce qui est vrai des avancées dans nos connaissances fondamentales l’est également des progrès technologiques : l’analyse des génomes bénéficie d’innovations obtenues dans sa propre communauté mais également dans de nombreux champs connexes. Ce rapport débute donc par ces nouveaux outils qui ont émergé récemment, car ils influencent profondément les questions actuelles et futures qui motivent nos recherches, et dynamisent des domaines dans lesquels des découvertes de rupture sont attendues. Les chapitres suivants couvrent différents domaines où la France est soit au premier plan, soit parfois très en retrait. Ils visent à mettre en relief les champs de la recherche qui méritent une attention particulière. Par choix, de nombreux autres domaines dans lesquels la communauté française tient son rang et participe activement à l’avancement des connaissances ne sont pas mentionnés. Enfin, le rapport se termine sur une observation concernant l’évolution du rapport entre les approches expérimentales et la biologie computationnelle, qui mériterait une réflexion au sein des sections du CoNRS, mais aussi plus largement au sein de l’INSB.

I. Nouvelles technologies

A. Génomique et épigénomique en cellule unique

Les approches de séquençage en cellule unique (« single cell » abrévié « sc ») permettent d’évaluer l’hétérogénéité des tissus ou des populations d’individus complexes ou disponibles en quantité limitée (gamètes, cellules souches), et de retracer des trajectoires développementales normales ou pathologiques. Le premier paramètre évalué en « single cell » a été le transcriptome, il y a près de 10 ans maintenant. D’une approche manuelle puis un peu plus systématisée (SMART-seq), la microfluidique ou la technologie droplet automatisent et standardisent aujourd’hui les procédures scRNA-seq, avec respectivement l’application FluidigM et 10X Genomics, qui permet de traiter jusqu’à 10 000 cellules simultanément. Complétant le scRNA-seq et le sc-small RNA-seq, toute une gamme d’approches cellules uniques mesurent également les modifications de l’ADN (scRRBS, PBAT, TAPS), l’accessibilité de la chromatine (scATAC-seq), la position des nucléosomes (scNOMe-seq), les modifications d’histones (scChIP-seq et CUT&RUN), et l’organisation tridimensionnelle du génome (scHIC).

Selon une suite logique, les applications « single-cell » multi-omiques ont récemment vu le jour, permettant la détection simultanée de plusieurs molécules (ADN, ARN, protéines), pour une résolution non seulement précise mais aussi intégrée du fonctionnement d’une cellule. Par exemple, le noyau d’une cellule peut être isolé pour l’étude de son génome, de son méthylome ou de ses caractères chromatiniens, tandis que le cytoplasme peut être utilisé pour analyser le transcriptome ou le protéome. Dérivant de ce principe, on peut citer des approches en duo telles que le scG&T-seq (Génome et Transcriptome), CITE-seq (Transcriptome et Proteome), scCOOL-seq (Position nucléosome et Méthylome), scMT-seq (Méthylome et Transcriptome), voire en trio avec le scNMT-seq (Position Nuclésome, Méthylome et Transcriptome) et le scTRIO-seq (Méthylome, CNV et Transcriptome).

Enfin, de nombreux efforts sont actuellement déployés pour intégrer une information spatiale à ces approches « single-cell ». En effet, les étapes de dissociation nécessaires à l’isolement physique des cellules détruisent leur organisation spatiale. Déterminer l’identité transcriptomique ou encore épigénomique d’une cellule au sein d’un tissu ou d’un embryon intact, en relation avec sa position et son environnement (cellules voisines, capillaires sanguins, etc.) est un Graal incontestable. Dans ce sens, des approches quantitatives in situ sont en cours de développement, s’appuyant sur la détection voire la localisation simultanée de plusieurs transcrits par RNA-FISH en molécule unique (RNAscope), et utilisées en complément du scRNA-seq.

Un problème crucial auquel il faut faire face est celui de la gestion (temps de traitement et place de stockage) des données massives générées par ces approches cellules uniques, et de la disponibilité de méthodes analytiques bioinformatiques pertinentes. L’un des défis futurs, en particulier en médecine de précision, sera d’appliquer ces technologies cellules uniques (« single » ou multi-omique) à des tissus fixés et archivés en paraffine, tels que les biopsies de tumeurs. Paradoxalement, alors qu’on observe une utilisation croissante et même le développement de technologies « single-cell » (dont le scChIP-seq et le scHIC) dans les laboratoires français, ceux-ci sont peu représentés dans la course au développement de méthodes multi-omiques sur cellules uniques, qui requièrent il est vrai des supports financiers, structurels et humains importants.

B. Séquençage de troisième génération

Les méthodes de séquençage sont devenues de plus en plus rapides et moins coûteuses, permettant le développement de nouvelles applications et méthodes ainsi qu’une augmentation exponentielle du nombre d’échantillons qui peuvent être analysés et, cela, selon des modalités diverses. Cependant, les méthodes classiques de séquençage présentent une limite située à quelques centaines de nucléotides de long et nécessitent pour l’analyse des ARN un passage par une étape de transcription inverse. Des méthodes (PacBio, Oxford Nanopore) ont récemment été développées pour des acides nucléiques, ADN ou ARN, longs de plusieurs dizaines de milliers de bases. Parmi elles, certaines sont capables de détecter les modifications du nucléotide lu, telle que la méthylation de l’ADN, ou des modifications post-transcriptionnelles de l’ARN comme le m6A, et ce directement, évitant ainsi de faire appel à une étape de modification biochimique dont le rendement ne saurait atteindre 100 %. Ces méthodes présentent encore un fort taux d’erreur dans l’identification des bases et leurs modifications. Néanmoins, des progrès notables ont été réalisés et le séquençage long pourrait à terme remplacer le séquençage de seconde génération dans les applications ne nécessitant pas des débits extrêmes, une fois que les difficultés liées à l’identification précise des bases seront résolues. Un autre défi pour ces méthodes de séquençage tient au fait qu’elles ne sont pas encore adaptées à l’analyse de cellules uniques mais là aussi des développements sont en cours.

La capacité de ces méthodes à lire des molécules uniques de grande longueur et à détecter leurs modifications individuellement nous aide à comprendre le rôle de la méthylation de l’ADN et son hétérogénéité, ainsi que le mécanisme de la réplication des chromosomes. Au niveau de l’ARN, ces méthodes nous éclairent sur le rôle de l’épissage alternatif, sur l’importance des modifications post-transcriptionnelles, et la régulation de l’expression génétique. D’autres applications existent également dans le domaine du séquençage de novo de génomes où deux méthodes sont utilisées conjointement : le séquençage à très haut débit pour la construction de contigs, puis leur assemblage grâce à des lectures longues qui forment un squelette. La capacité à lire des séquences sur de grandes distances permet par ailleurs l’assemblage précis de génomes contenant une forte proportion d’éléments répétés. Ceci a permis de corriger la séquence de plusieurs génomes de référence dont celui du génome humain et d’analyser la séquence de leurs télomères.

Enfin, des méthodes basées sur le séquençage long sont développées pour analyser la structure tridimensionnelle des génomes permettant de capturer l’ensemble des contacts dans lesquels une molécule particulière est engagée et donc, d’apprécier la variabilité des contacts de cellule à cellule.

C. Ingénierie du génome et de l’épigénome

La répression ciblée de l’expression de gènes endogènes par interférence ARN a constitué un progrès majeur. Plus récemment, l’édition ciblée de l’ADN par les outils dérivés du système de défense bactérien CRISPR-Cas9 a provoqué une véritable révolution en biologie, avec la possibilité de supprimer, remplacer ou insérer des fragments d’ADN de manière précise selon une « cuisine » moléculaire simple. Les implications développementales ou pathologiques peuvent être testées in vivo, sur modèles animaux ou végétaux. S’ouvre également la perspective de thérapies géniques chez l’homme, avec les débats éthiques nécessaires sur ses applications dans l’embryon. En effet, les modifications génétiques induites par CRISPR-Cas9 sont irréversibles, et surtout, sont potentiellement héréditaires si la modification atteint l’ADN de la lignée germinale.

D’autres outils CRISPR ont récemment vu le jour, qui eux permettent de modifier le niveau d’expression ou la séquence exprimée d’un gène de façon transitoire ou réversible, sans altérer la séquence d’ADN. Ainsi, le système CRISPR-Cas13 permet de cibler non pas l’ADN mais l’ARN. De nombreux efforts sont déployés avec ce nouveau système pour des approches « knock-down » de transcrits, pour corriger des ARN mutés ou encore pour marquer et visualiser des ARN, notamment par imagerie en temps réel. D’autre part, l’activité de clivage de Cas9 peut être détruite (« dead Cas9 », dCas9), tout en conservant ses propriétés de ciblage à façon par des petits ARN guides. En fusionnant dCAs9 à des inhibiteurs transcriptionnels tel que KRAB (CRISPRi) ou des activateurs transcriptionnels comme VP65 ou VPR (CRISPRa), on peut tester non seulement des pertes de fonction, par l’extinction d’un gène, mais également des gains de fonction, par surexpression ou expression ectopique d’un gène.

Selon ce même principe, l’épigénome peut aussi être modifié localement, par la fusion de dCas9 avec des enzymes de modification de l’ADN ou de modification post-traductionnelle des histones. Ainsi, il est maintenant possible de tester l’impact direct de la méthylation de l’ADN ou d’une modification d’histone sur un locus donné, plutôt que d’avoir à éliminer l’enzyme de modification et s’exposer ainsi à des effets pleiotropes et potentiellement confondants. Les outils CRISPR-Cas9 ont également été adaptés pour une utilisation en cribles génomiques, en version perte de fonction, CRISPRa ou CRISPRi. Ils sont aussi de plus en plus utilisés pour des approches protéomiques visant à étudier par spectrométrie de masse les protéines associées à une séquence d’ADN donnée, en combinaison avec des outils d’immunoprécipitation de la chromatine ou de biotinylation par proximité (APEX).

En principe, les ingénieries technologiques dérivées de CRISPR sont illimitées, nourries notamment par la découverte de nouvelles enzymes Cas avec des spécificités de reconnaissance inédites. De nouveaux outils d’édition épigénomique voient le jour avec une fréquence exponentielle : en principe, toute protéine du métabolisme de l’ADN ou de l’ARN peut être ciblée à façon, en fusion avec des versions inactives de Cas9 ou Cas13. Parmi les promesses les plus attrayantes, on peut mentionner :

– L’utilisation de CRISPRi ou CRISPRa in vivo, pour tester la fonction d’un ou plusieurs gènes, par exemple au cours du développement, pendant la tumorigenèse ou sur un destin cellulaire. Des modèles souris et drosophile exprimant CRISPR-Cas9 de façon tissu-spécifique (en combinaison avec le système CRE) sont déjà disponibles, la limite la plus flagrante étant le mode de délivrance des ARN guides.

– La modification de la structure tridimensionnelle du génome, en fusionnant la dCAs9 avec l’agent insulateur CTCF ou en induisant une hétérodimérisation entre deux protéines liées à des sites distants et ainsi, la formation de boucles chromatiniennes.

– Le ciblage des processus d’épissage ou de modification des ARN, en utilisant une version inactive de Cas13.

– L’utilisation de l’outil CRISPR pour des approches de séquençage dirigé.

D. Intelligence artificielle et génomique

La génomique au sens large est une discipline classiquement basée sur l’acquisition de quantités massives de données, à partir desquelles des observations sans a priori sont susceptibles de mener à de nouvelles connaissances, hypothèses, relations et prédictions. Ce cadre se prête idéalement à l’application des techniques d’apprentissage automatique (« machine learning »), dans lesquelles un algorithme d’apprentissage peut par exemple être entrainé a classifier des profils de descripteurs construits pour représenter des classes d’éléments à partir d’annotations fournies par les chercheurs. Depuis quelques années, les applications de l’apprentissage automatique se sont étendues à de nombreuses questions, en général liées à l’identification de propriétés des séquences d’ADN (sites d’initiation de la transcription (TSS), sites de régulation) et de fonctions parfois très précises (intensité d’expression des gènes, caractère pathologique de mutations). Une étape supplémentaire est actuellement en passe d’être franchie, grâce à l’application d’un type spécifique d’algorithmes permettant de réaliser de l’apprentissage « profond » (« Deep Learning », DL). Ici, les chercheurs n’ont plus besoin de spécifier des descripteur pour construire une représentation des éléments à analyser: l’algorithme basé sur des réseaux de neurones profonds identifiera lui-même les descripteurs lui permettant de classer de manière optimale les éléments souhaités par l’utilisateur. Le « Deep Learning » nécessite des quantités massives de données mais des applications commencent à voir le jour. Par exemple des progrès importants ont été réalisés dans la prédiction d’interactions protéine-ADN. Plus récemment une équipe aux USA a développé un logiciel qui est capable de prédire l’intensité tissu-spécifique de l’expression d’un gène, avec une précision remarquable, et ce, simplement à partir de la séquence d’ADN autour de son promoteur. Ces approches nécessitent la mise en place de clusters de calculs dédiés, équipés de processeurs graphiques (GPU). Une branche particulière du « Deep Learning » à haut potentiel consiste à opposer deux réseaux de neurones afin de générer de nouveaux objets biologiques (des séquences d’ADN, de protéines, des réseaux, des images de cellules, etc.) indistinguables d’un objet biologique réel de la même classe. Ces algorithmes appelés « Generative Adversarial Networks » (GAN), voient de premières applications en génomique émerger. En France, plusieurs initiatives ont vu le jour visant à favoriser le développement de ces approches dites d’Intelligence Artificielle (IA) en biologie, à travers des partenariats privé-public, des opérations de mise en réseaux de laboratoires, des colloques, des programmes de financement. Elles doivent associer étroitement des biologistes, car l’expérience montre qu’une compréhension profonde des données biologiques utilisées et une maîtrise des concepts moléculaires sont indispensables à des applications fructueuses.

II. Expression et stabilité des génomes

A. Transitions de phase

Ces dernières années ont vu l’émergence d’un nouveau principe clé de l’organisation subcellulaire, celui des séparations de phase liquide-liquide. La capacité des protéines et des acides nucléiques de se condenser localement sous forme de gouttelettes liquides plus concentrées (plus visqueuses) que le cytoplasme ou le noyau environnant explique la formation d’un grand nombre de granules micrométriques observables en microscopie et dépourvus de membrane. On peut citer dans le noyau les nucléoles, corps de Cajal, speckles et paraspeckles, corps PML, mais aussi les foyers de réplication et de réparation. Dans le cytoplasme, on peut observer des P-bodies, granules germinaux et neuronaux, granules de stress, et plus récemment les usines de traduction. Ces séparations de phase pourraient aussi expliquer la formation des domaines chromatiniens et même la condensation des chromosomes. En réalité, elles ont lieu dès lors que des molécules sont capables d’établir des interactions multivalentes et de faible affinité, deux propriétés caractéristiques des complexes RNA/protéine et DNA/protéine.

À l’opposé des complexes cristallisables, comme les ribosomes, la compartimentation du contenu cellulaire par transition de phase conduit à des domaines de contenu extrêmement dynamique et régulé en fonction de l’environnement cellulaire. Il s’agit donc d’un regard très nouveau sur l’organisation du métabolisme cellulaire. Les prochaines années devraient permettre de comprendre la valeur ajoutée de ces domaines par rapport à une distribution diffuse de leurs constituants. Servent-ils à atteindre les concentrations moléculaires suffisantes pour certaines réactions enzymatiques ? Ou au contraire à inhiber des réactions dans un environnement similaire à un gel ? Ou à isoler certaines molécules du contenu cytosolique ? Ces questions sont centrales pour comprendre les mécanismes contrôlant l’expression des gènes et le maintien de l’intégrité du génome, et les laboratoires de biologie français ne doivent pas rester en retrait sur ces évolutions.

B. Variabilité génétique

La variabilité de l’expression génétique est au cœur de l’évolution des espèces car elle est le substrat de la sélection et la source de l’innovation. Cette idée n’est pas récente mais les moyens expérimentaux pour investiguer à quel point elle est importante et quels en sont les mécanismes manquaient jusqu’à présent, en particulier pour l’étudier chez les organismes pluri-cellulaires.

Notre compréhension de cette variabilité est aujourd’hui en plein bouleversement. Pour en saisir la raison, il est nécessaire de revenir sur la façon dont une variabilité, quelle qu’elle soit, est perçue expérimentalement. Il s’agit d’acquérir un grand nombre de fois des valeurs quantitatives qui, dans une condition donnée, devraient être égales entre elles, puis d’estimer leur dispersion. Les technologies d’aujourd’hui révolutionnent cette perception. Tout d’abord par leur débit : Le grand nombre de fois, directement lié au nombre d’échantillons analysés lors d’une expérience, est en croissance vertigineuse. Ensuite par leur couverture : les valeurs quantitatives peuvent désormais être obtenues sur des milliers de macromolécules de nature différente (ARN, protéines et leurs modifications…), de caractères morphométriques (taille et forme des cellules…) et de multiples acquisitions spatiales et temporelles. Par ricochet, ce bouleversement technologique nous autorise à redéfinir le périmètre de la variabilité : ce qui était hier considéré comme un groupe homogène d’individus peut aujourd’hui être stratifié par mode de vie, sous-catégorie phénotypique ou génotypique, etc. De même, la notion de type cellulaire devient parfois floue face à l’hétérogénéité entre cellules individuelles. Il est devenu possible d’identifier les sources de variabilité (interactions gène-gène, gène-environnement, âge, effets transgénérationnels…), et même d’étudier la variabilité stochastique d’un paramètre (sans source déterministe) qui est elle-même impliquée dans des processus fondamentaux tels que l’adaptation environnementale ou la survenue de certaines maladies. Nous cherchions hier le contrôle génétique des caractères, nous percevons aujourd’hui à quel point ce contrôle est intrinsèquement variable. De nouvelles techniques d’observation et d’analyse nous permettent d’extraire les facteurs génétiques ou environnementaux agissant sur cette variabilité.

C. Contrôles post-transcriptionnels de l’ARN

L’expression des gènes dépend de leur transcription, mais aussi de tous les processus co- ou post-transcriptionnels : choix du site de polyadénylation, épissage alternatif, stabilité des ARNm, taux de traduction. La large diffusion des techniques de séquençage haut débit a fait exploser ce champ de recherche.

Les gènes génèrent souvent une multitude de transcrits. Même lorsque ceux-ci codent la même protéine, ils peuvent différer par la présence d’éléments régulateurs : petites ORF en amont (uORF) ou IRES qui régulent l’initiation de la traduction, sites de liaison à des facteurs liant l’ARN (protéines ou miRNAs) qui contrôlent leur stabilité, leur localisation ou leur traduction en fonction des besoins cellulaires. Le défi est maintenant d’obtenir non seulement un descriptif de ces isoformes alternatives à l’échelle du transcriptome entier, mais surtout une vision intelligible de leurs fonctions respectives, afin d’accéder à l’ensemble des potentialités des génomes. Ceci permettra d’appréhender les programmes d’expression géniques et leur dérégulation dans toute leur complexité.

Dans de nombreux modèles d’étude, les variations de la quantité des ARNm ne sont pas corrélées à celles des protéines correspondantes, preuve de l’importance des régulations traductionnelles. L’analyse du translatome par les techniques de « polysome profiling » ou de « ribosome profiling » apparaît donc indispensable, et on peut regretter que ces approches -omics se soient moins répandues dans les laboratoires français que dans des pays comme les USA ou l’Angleterre. Elles ont aussi changé notre vision de la traduction, en révélant la présence d’une abondante traduction en dehors de la phase codante annotée. Ainsi la présence de ribosomes actifs dans les 5′ et 3’UTR, mais aussi sur des ARN dits « non codants », laisse entrevoir un protéome beaucoup plus riche qu’attendu en petits peptides, dont les rôles demeurent largement inconnus et pour lesquels les techniques de biologie moléculaire actuelles sont peu adaptées. Enfin, les techniques récentes d’imagerie en temps réel de la traduction in vivo (SUNTAG, MOONTAG) permettent désormais d’aborder la dynamique spatio-temporelle de la traduction, avec une résolution inégalée.

Un autre champ émergent est celui concernant les modifications des ARNm, dont l’importance a récemment été mise en évidence grâce à de nouvelles méthodes d’analyse. Elles apparaissent dynamiques et peuvent affecter la stabilité, la localisation, et la traductibilité des ARNm. Bien que la méthylation des adénines soit la plus étudiée, il existe au moins une dizaine d’autres modifications dont les fonctions restent à caractériser. De plus, les ribosomes ne sont pas une population homogène : en fonction des modifications de l’ARNr et de leur composition en protéines ils peuvent traduire préférentiellement certains ARNm. Il est probable que ce concept de ribosome spécialisé, qui ajoute une nouvelle possibilité de contrôle de l’expression des gènes, va se développer dans un proche avenir.

D. Héritabilité et maintenance de l’épigénome

La chromatine est formée par l’association d’ADN, d’ARN et de protéines histone et non-histone. L’épigénome est défini comme l’ensemble des modifications qui affectent la chromatine, et inclut notamment la méthylation de l’ADN, les modifications post-traductionnelles des histones, les ARN non codants. Il dicte l’identité cellulaire, en imposant un patron spécifique d’expression des gènes, et intervient dans tous les processus liés à l’ADN (3R : réplication, recombinaison, réparation). Par ailleurs, l’organisation en 3D impose des contraintes architecturales à la chromatine, qui s’organise en domaines fonctionnels, territoires chromosomiques et chromatiniens, dont les mécanismes de mise en place et de maintien restent pour la plupart à élucider.

Le défi de ces prochaines années est de comprendre comment la signature épigénétique d’une cellule, et l’organisation spatiale de la chromatine sont transmises au cours des générations successives afin que la cellule conserve son identité. Plusieurs questions se posent. Comment la cellule restaure la structure chromatinienne après la réplication ? Comment préserve-t-elle la mémoire transcriptionnelle lors de la mitose ? Comment les gamètes réorganisent leur génome pour former un zygote totipotent qui est à l’origine d’une nouvelle vie ? Tout dérèglement dans ces processus est à l’origine d’instabilité génétique pouvant conduire au cancer ou à l’infertilité.

Un autre volet important est de déterminer comment les processus épigénétiques concourent à l’homéostasie cellulaire, et quels sont les liens entre le métabolisme et les enzymes de modification de la chromatine. Cet axe de recherche ouvre des voies pour le traitement des maladies métaboliques comme le diabète.

Enfin, les dommages à l’ADN à l’origine de l’instabilité génétique associée aux cancers, sont réparés au sein de la chromatine. Il est crucial de comprendre comment le contexte chromatinien intervient dans le choix des voies de réparation, et comment la structure chromatinienne est rétablie après la réparation.

Les approches en cellule unique, de nouvelles méthodes biophysiques pour étudier la séparation de phases liquides et la possibilité d’éditer le génome (CRISPR-Cas9) seront des technologies essentielles pour répondre à ces questions.

E. Contribution des éléments transposables à l’organisation et l’expression des génomes

Les éléments transposables (ET) sont des composants majeurs des génomes eucaryotes et procaryotes. Suite au séquençage massif de nombreux génomes et aux études fonctionnelles à grande échelle, leur impact sur la régulation de l’expression génique, sur l’apparition d’une pathologie ou sur l’évolution des espèces est devenu un champ ouvert d’interrogations et d’investigations.

Les ET ont une action ambivalente pour les organismes. On leur attribue une action positive sur les génomes en raison de la variabilité génétique que leurs nouvelles insertions peuvent créer (source potentielle d’adaptation à des changements environnementaux) et une action négative à travers les mutations délétères qu’ils peuvent provoquer. Le poids de ces actions sur la biologie d’un organisme est cependant loin d’être élucidé. Les études menées ces dix dernières années ont montré qu’un équilibre existe entre répression et expression des ET, équilibre qui peut varier en fonction de l’âge ou de stress environnementaux.

Au cours de stades spécifiques du développement de la lignée germinale, la répression des ET est relâchée, leur permettant d’amorcer des cycles de réplication engendrant de nouvelles insertions. Quelles en sont les conséquences sur les générations futures ? La question du rôle joué par les ET et des conséquences à long terme sur les descendants est notamment posée dans le cadre d’exposition à des stress tels que changements climatiques, agents chimiques, radiations.

La répression/expression des ET dans la lignée somatique a jusque-là été moins étudiée mais des analyses menées sur des cellules uniques ainsi que le suivi d’une copie unique d’un ET au sein du génome ouvrent le champ à des études qui permettront de comprendre l’impact des ET dans des pathologies où une expression forte a parfois été mise en évidence. Elles permettront enfin de savoir s’ils jouent un rôle actif dans l’établissement de la pathologie ou s’ils sont des éléments passifs.

La diversité des ET et le succès de leur invasion génomique ont modelé les génomes. Examiner les propriétés intrinsèques d’un ET en lien avec celle du génome hôte, estimer l’impact de transferts horizontaux qui se révèlent beaucoup plus fréquents qu’initialement postulé, permettra d’avancer dans la compréhension de leur rôle en tant que moteur de l’évolution des génomes. Ce rôle évolutif devra être envisagé en considérant l’ET comme un acteur du génome capable d’apporter de nouvelles fonctions soit grâce aux protéines/ARN qu’il code, soit grâce aux réarrangements résultant de son insertion génomique (addition d’exons, nouveau gène), et aux séquences régulatrices qu’il apporte (enhancers, sites de polyadénylation…). Ces fonctions ont largement contribué à structurer le génome humain et de multiples cas de domestication ou de cooptation d’ET ont été décrits sans qu’on puisse estimer leur poids réel au cours de l’évolution. Leur impact sur la fraction non codante du génome (ADN et ARN) et sur les fonctions biologiques associée est peu étudié et devrait changer notre vision du rôle des ET dans les génomes.

Les nouveaux outils génétiques tels que le séquençage de longs fragments d’ADN, l’analyse de cellules uniques, le suivi d’une copie unique d’ET, la mutagenèse par le système CRISPR-Cas sont autant d’outils qui permettront de lever le voile sur l’importance biologique de ces éléments.

F. Organisation des génomes en 3D

Les chromosomes procaryotes, d’archaea et eucaryotes ne sont pas organisés aléatoirement mais présentent des structures hiérarchisées et complexes. Cette architecture tridimensionnelle et son interaction fonctionnelle avec l’expression des gènes ou d’autres processus métaboliques du chromosome tels que la réparation, la duplication ou la ségrégation sont activement étudiées dans plusieurs espèces (notamment l’humain, la souris, la drosophile). Plusieurs décennies d’amélioration des techniques d’imagerie sur cellules vivantes, ainsi que le développement récent d’approches génomiques telles que la capture de conformation chromosomique (HiC) ont révélé des mosaïques de structures entrelacées formant des boucles, domaines, ou compartiments. Les données générées par ces méthodes invitent un nombre croissant de physiciens à se pencher sur ces questions. Leurs contributions, tirant parti de modèles issus de recherche en physique des polymères ou de séparation de phase liquide-liquide, ont contribué au développement de nouvelles hypothèses et expériences, et amélioré notre compréhension des principes physiques qui sous-tendent le repliement des chromosomes. Ce domaine interdisciplinaire couvre par ailleurs un large éventail de sujets de recherche en biologie, puisque les liens entre structure 3D des génomes et différenciation cellulaire, régulation de l’expression génique, évolution, ou encore maladies géniques, cancer, et infection, sont au cœur des questions étudiées. Après une période relativement descriptive, générant une abondante littérature axée principalement sur les modèles mammifère et mouche, les analyses deviennent de plus en plus fonctionnelles au fur et à mesure que des composants moléculaires impliqués dans la structuration des génomes sont découverts et étudiés.

Tous les génomes étudiés à ce jour présentent deux types principaux d’organisation à grande échelle : une compartimentation de grands domaines d’ADN dans la cellule bactérienne ou dans le noyau eucaryote, et le repliement local d’ADN en grandes boucles. La perturbation du repliement, par des mutations des complexes régulateurs ou par modifications structurelles de la molécule d’ADN elle-même peut provoquer des interactions anormales entre séquences régulatrices transcriptionnelles, entraînant parfois une dérégulation génétique. Un exemple frappant est l’implication d’une modification du repliement 3D de groupes de gènes Hox dans le développement des membres chez la souris, suite à une modification structurelle du chromosome.

D’autres avancées en imagerie haute résolution et techniques génomiques impliquant du séquençage de troisième génération (PacBio, Nanopore, etc.) vont bientôt permettre de disséquer la variabilité de cellule à cellule du repliement chromosomique et fournir des informations supplémentaires sur sa pertinence fonctionnelle. Associé à de la transcriptomique en cellule unique, cela permettra de caractériser en profondeur l’interaction entre repliement du chromosome et métabolisme cellulaire.

À mesure que le domaine de recherche et les techniques évoluent, il devient possible de décrire l’évolution du repliement des chromosomes dans de nombreux groupes d’espèces. La récente commercialisation de kits de Hi-C, extrêmement efficaces pour les cultures cellulaires et relativement efficaces pour diverses espèces, permet de prédire une explosion de la quantité de données décrivant les structures 3D des chromosomes de milliers d’espèces au cours des prochaines années. Des algorithmes d’apprentissage automatique pourront aider à interpréter les données, qui sont souvent bruitées et sujettes à des biais expérimentaux.

Ces kits vont également permettre d’augmenter significativement le nombre de génomes complètement assemblés. En effet, caractériser les fréquences de contacts entre segments d’ADN d’un chromosome permet d’inférer la distance physique qui les sépare. L’application de ces techniques aux échantillons de métagénomique a également fait ses preuves. Elles permettent non seulement de caractériser les génomes d’espèces présentes dans des écosystèmes complexes, mais aussi d’étudier le flux de molécules d’ADN au sein d’une population. De telles approches sont actuellement mises en œuvre dans des projets exploratoires à grande échelle visant à caractériser les génomes de tous les animaux vivants, ou les métagénomes des océans.

III. Génomique comparative et évolution des génomes

A. Séquencer le vivant

Après le séquençage des génomes d’espèces modèles, de nombreuses espèces d’intérêt économique et de milliers de versions du génome humain, une nouvelle ère débute aujourd’hui avec le séquençage systématique de la biodiversité. De grands consortiums ont vu le jour afin d’associer les curateurs de grandes collections (Muséums, etc.), des spécialistes en génomique et des bioinformaticiens. Les objectifs sont extrêmement ambitieux. En termes de qualité, les génomes seront complets, chaque chromosome sera continu, et le taux d’erreur très faible. En termes de couverture de la biodiversité, certains projets envisagent d’être exhaustifs. Par exemple, le consortium Genome 10K (G10K), qui vise à séquencer environ 10 000 génomes de vertébrés, a ensuite donné naissance au « Vertebrate Genome Project » (VGP) qui ambitionne de séquencer un représentant de toutes les espèces de vertébrés (66 000 espèces) en débutant par un représentant de chaque ordre (environ 280 espèces). Au Royaume-Uni, le « Darwin Tree of Life Project » prévoit également de séquencer 66 000 génomes, mais de toutes les espèces eucaryotes (plantes, animaux, champignons, protozoaires) vivant sur les îles britanniques. Un projet similaire est en cours d’élaboration en Catalogne. On peut encore citer le projet I5K visant à séquencer les génomes de 5 000 espèces d’insectes, dont 10 % sont déjà terminés. Ces projets s’inscrivent dans un effort international appelé « The Earth BioGenome Project », auquel participent activement des chercheurs aux USA, en Chine, en Allemagne, au Danemark, au Royaume-Uni, en Australie, au Brésil et en Espagne. La France est la grande absente de ces projets de séquençage ciblé et de haute qualité de génomes représentant une espèce ou un groupe d’espèces. Cependant elle contribue activement au séquençage de la biodiversité grâce au projet TARA Océan (voir section suivante), qui échantillonne depuis 10 ans les micro-organismes eucaryotes (plancton) à différentes profondeurs et sur toutes les mers du globe, et bientôt des rivières, en vue de leur séquençage par une stratégie « métagénomique ».

Pour l’instant les séquences produites par les grands projets cités ci-dessus sont déposées dans des bases de données publiques, selon une tradition établie dans la communauté génomique dès la fin des années 90. Néanmoins les consortiums préemptent un droit à un « premier regard » sur les données, afin de conserver la primeur des résultats les plus importants. En ne s’impliquant pas, la communauté française risque de passer à côté d’un savoir-faire essentiel pour la recherche en biologie et biotechnologie des années à venir.

B. Aux origines du vivant : archées, eucaryotes, bactéries, virus

L’accès massif aux séquences de nouveaux génomes d’organismes unicellulaires, dans les trois domaines du vivant, grâce notamment aux nouvelles expéditions TARA, va offrir un échantillonnage taxonomique sans précédent. L’analyse comparative de ces nouveaux génomes et la reconstruction de leur histoire évolutive permettra de résoudre des questions fondamentales ayant trait aux origines de la vie.

– Comment se sont créés les gènes lors de l’apparition des organismes cellulaires ? Les virus géants, qui abritent dans leurs génomes une immense majorité de gènes inconnus, ont-ils été des pourvoyeurs de gènes pour les organismes cellulaires ? L’étude des propriétés des gènes nouvellement créés dans les génomes actuels devra être poursuivie, afin de tenter de caractériser leurs fonctions. Pour cela, l’intégration de données multi-échelles, combinant des données génomiques, protéomiques et interactomiques permettra de définir les réseaux génétiques auxquels appartiennent ces gènes. Des études d’évolution expérimentale pourront également explorer les conditions dans lesquels ces nouveaux gènes se structurent.

– Comment s’est effectué le passage d’une biologie anaérobique sur le globe à une biologie oxygénique ? Il s’agit de comprendre les conditions de l’émergence et l’origine des cyanobactéries, premiers organismes photosynthétiques à utiliser l’eau comme source d’électrons en libérant de l’oxygène dans l’atmosphère, condition nécessaire à l’émergence de la cellule eucaryote.

– Quels sont les facteurs clés à l’origine de l’eucaryogénèse ? Le séquençage de nouvelles Archaea et de nouvelles bactéries permettra de préciser la branche d’Archaea qui se rapproche le plus de l’ancêtre de la cellule eucaryote et la branche bactérienne qui se rapproche le plus de l’ancêtre de la mitochondrie. Ces données génomiques permettront également de confronter des scénarios alternatifs, l’un proposant que l’endosymbiose mitochondriale a eu lieu dans une cellule proto-eucaryote déjà pourvue d’un réticulum endoplasmique tandis que l’autre considère une endosymbiose mitochondriale précoce à partir d’une bactérie pathogène en intégration métabolique dans une Archaea avant la structuration d’un noyau et du réticulum endoplasmique. Il s’agira donc de déterminer avec plus de précision phylogénétique les dates d’apparition respectives du réticulum et de l’endosymbiose primaire.

IV. Microbiologie

Les enjeux des recherches en Microbiologie fondamentale sont à la fois cognitifs, pour la compréhension du fonctionnement de la cellule vivante, le développement et la validation de méthodes qui sont ensuite appliquées à des systèmes plus complexes, et applicatifs afin d’améliorer des processus biotechnologiques ou de combattre les maladies infectieuses.

Sur un axe biotechnologique, la microbiologie apporte des stratégies pour la production de bioénergie, pour la dépollution ou pour la production de molécules d’intérêt. Concernant la santé humaine, des études centrées sur les bactéries sont essentielles afin de comprendre les processus impliqués dans les maladies infectieuses et lutter contre l’apparition de résistances aux antibiotiques.

Les études sur le microbiome humain, qui s’apparente à un véritable organe, ainsi que sur les biofilms multicellulaires procurant des propriétés nouvelles de colonisation et de résistance, ont révélé leur rôle essentiel dans la santé humaine. Dans ce domaine, une microbiologie expérimentale et déductive est nécessaire si l’on veut réellement comprendre le fonctionnement de communautés complexes. Les recherches doivent ainsi dépasser une science purement descriptive et -omique tout en évoluant de l’étude d’organismes individuels à l’étude de populations mixtes. En cela, les techniques de microfluidique vont prendre une place de plus en plus importante, faisant suite à l’explosion de la biologie cellulaire et de l’imagerie chez les procaryotes. Ces outils ont déjà largement influencé les travaux menés sur les microorganismes au cours des dernières années. Au-delà de la métagénomique, qui donne accès à la biodiversité des populations dans un écosystème donné, les approches de microfluidique permettent d’étudier l’hétérogénéité phénotypique qui peut exister au sein d’une population clonale et de comprendre comment l’introduction d’une variable externe (température, nutriment, drogue, nouvelle espèce…) peut perturber un équilibre populationnel. Ainsi, ces approches ouvrent de nouvelles perspectives pour comprendre les mécanismes de communication bactérienne et les processus adaptatifs comme l’évolution de la résistance aux antibiotiques et l’émergence de cellules persistantes.

Avec le développement de nouvelles techniques, la génétique microbienne retrouve toute sa puissance. Les cribles génétiques classiques sont maintenant suivis par du séquençage à haut débit, des banques d’ARN pour l’interférence CRISPR, et l’utilisation d’autres bactéries « barcodées ». Ces études restent nécessaires pour élucider la fonction de la majorité du réservoir de gènes procaryotes. De plus, ces approches à l’échelle génomique couplées à la robotisation permettent maintenant de développer des études d’envergure pour comprendre la réponse des bactéries à des changements de l’environnement, les gènes impliqués, ou les effets conjugués de différentes drogues (antibiotiques et antidépresseurs par exemple).

La diversité métabolique et leur capacité d’adaptation font des bactéries les systèmes les plus performants pour le développement d’une approche systémique et la modélisation des processus biologiques. La connaissance du métabolisme permet de redessiner les processus biologiques et d’en créer de nouveaux en combinant les analyses intégratives au génie génétique et à des expériences d’évolution contrôlée pour la sélection de nouveaux processus biologiques. Cette biologie synthétique permet de comprendre le fonctionnement d’une bactérie et est porteuse d’applications considérables dans la chimie de synthèse.

L’étude du monde bactérien présente donc des facettes multiples, cognitives et appliquées, et les équipes françaises ont su depuis de nombreuses années maintenir un niveau d’excellence en microbiologie moléculaire, qu’elle soit fondamentale, environnementale, biotechnologique ou infectieuse.

V. Évolution des thématiques et recrutements

Au cours des 20 dernières années, la recherche en biologie en général, et sur la biologie des génomes en particulier, a vu deux évolutions majeures dont il conviendrait de mesurer les conséquences sur le recrutement et l’évaluation des chercheurs. La première concerne les outils informatiques, dont l’utilisation est passée d’un domaine réservé aux chercheurs spécialisés, souvent en génomique, à une démocratisation vers l’ensemble des disciplines et des questions relatives à la biologie moléculaire. Aujourd’hui, de nombreux jeunes chercheurs et jeunes chercheuses proposent des projets aux concours de recrutement du CNRS, aux ATIPs, à l’ANR JCJC ou aux ERC « starting grant » qui s’appuient sur un axe « biologie computationnelle ». Dans ces projets, la question posée est clairement d’ordre biologique, mais la stratégie mise en oeuvre pour y répondre fait appel à des outils informatiques et statistiques maîtrisés par ces chercheurs et parfois très sophistiqués. La deuxième évolution majeure concerne les méthodes expérimentales à haut débit. Longtemps réservées à l’ADN et l’ARN car s’appuyant sur des technologies de séquençage, ces approches se sont répandues dans de nombreux domaines au delà de la génomique, comme la biologie du développement, la biologie cellulaire, la recherche sur le cancer, l’évolution du vivant et la biodiversité. Ces technologies à haut débit dépassent d’ailleurs les approches liées au séquençage et incluent par exemple l’imagerie, la protéomique, les cribles cellulaires ou la microfluidique.

Ces changements reflètent une transformation de la biologie en une discipline de plus en plus quantitative. Cette évolution très positive pose cependant des difficultés pour le recrutement et l’évaluation des chercheurs. La CID51, initialement concernée par les projets à dominante bioinformatique, se concentre maintenant sur les développements méthodologiques en informatique, statistique et modélisation appliqués à la biologie. Elle n’est plus adaptée à ces chercheurs en biologie computationnelle qui se présentent aux concours de recrutement. Dans ce contexte, la section 21 doit prendre cette évolution en compte dans la composition de ses membres et renforcer cette composante pour continuer d’évaluer à la fois la pertinence de la question et le choix des outils. A contrario, l’utilisation d’approches à haut débit dans de nombreux champs disciplinaires amène de plus en plus de chercheurs à présenter aux concours en section 21 des projets dont les outils sont effectivement inclus dans les mots-clés de la section (génomique, transcriptomique, protéomique, biologie des systèmes) mais dont l’application concerne une question qui est clairement dans le périmètre d’une autre section (ex : immunologie, cancérologie, écologie, génétique des populations). Il conviendrait donc de prendre en compte cette généralisation des approches à haut débit dans la constitution de toutes les sections de biologie du CoNRS.

Conclusion

Ces dernières années ont vu l’analyse des génomes (organisation, expression, intégrité, évolution…) changer dramatiquement d’échelle, grâce à des innovations technologiques majeures. En particulier, le temps est venu des analyses à haut débit en molécules uniques, en cellules uniques, sur des dynamiques temporelles, en intégrant des données multi-omiques complexes grâce à des méthodes bioinformatiques et statistiques innovantes. Aujourd’hui, l’étude du « vivant » ne se circonscrit plus à quelques espèces modèles contemporaines, mais embrasse toute la biodiversité, son présent et son passé. La France maintient son rang dans de nombreux domaines mais le présent rapport identifie des points de vigilance où certains pays prennent un leadership incontesté. La multidisciplinarité est plus que jamais un atout incontestable pour faire progresser nos connaissances, en particulier dans les domaines relevant de la section 21, qui se trouve à la croisée de toutes les disciplines connexes en biologie, que ce soit l’informatique, la physique, la chimie ou les mathématiques. Il est essentiel que le CNRS, à travers son soutien de base, ses infrastructures et sa capacité à dynamiser la recherche, poursuive ses efforts pour permettre à ses équipes de recherche de maintenir un haut niveau de compétitivité.

ANNEXE 1

Abréviations
APEX : Ascorbate Peroxydase Proximity Biotinylation
ATAC-seq : Assay for Transposase-Accessible Chromatin using sequencing
CITE-seq : Cellular Indexing of Transcriptomes and Epitopes by sequencing
ChIP-seq : Chromatin Immuno-Precipitation and sequencing
CID51 : Commission Inter Disciplinaire 51
CNV : Copy Number Variation
CRISPR : Clustered Regularly Interspaced Short Palindromic Repeats
CUT & RUN : Cleavage Under Targets and Release Using Nuclease
ET : Élement Transposable
ERC : European Research Council
GPU : Graphics Processing Unit
HiC : High throughput Conformation Capture sequencing.
IRES : Internal Ribosome Entry Site
JCJC : Jeune Chercheur Jeune Chercheuse
ORF : Open Reading Frame
PBAT : Post Bisulfite Adapter Tagging
scCOOL-seq : single-cell Chromatin Overall Omic-scale Landscape sequencing
scMT-seq : single cell Methylome and Transcriptome sequencing
scRRBS : single-cell reduced-representation bisulfite sequencing
SMART-seq : Switch Mechanism at the 5′ End of RNA Templates and sequencing
TAPS : TET-assisted pyridine borane sequencing