Rapport de conjoncture 2019

Section 20 Biologie moléculaire et structurale, biochimie

Composition de la Section

Yves Gaudin (président de Section) ; Emmanuel Tétaud (secrétaire scientifique) ; Jean-Marc Berjeaud ; Nathalie Colloch ; Frédérique De Witte ; Fabrice Fleury ; Sylvie Fournel-Gigleux ; Ines Gallay ; Emmanuel Giudice ; Marie-Thérèse Giudici-Orticoni ; Jérome Golebiowski ; Stéphane Grimaldi ; Isabelle Imbert ; Jean-Michel Jault ; Roland Marquet ; Gladys Mbemba-Loumpangou ; Isabelle Schalk ; Guy Schoehn ; Carine Tisne-Vicrobeck ; Gilles Truan ; Alexis Verger.

Résumé

Les chercheurs et équipes dépendant de la section 20 cherchent à élucider les processus moléculaires qui régissent les systèmes biologiques. La diversité des organismes et fonctions étudiés ainsi que la variété des techniques et approches expérimentales fait de la section 20 une section « cœur de métier » de la biologie située au carrefour de nombreuses disciplines et jouant un rôle majeur aux interfaces de la biologie avec la chimie, la physique et l’informatique ainsi que dans le développement de la biologie intégrative et synthétique. Les laboratoires dépendant de la section sont présents sur tous les grands campus du CNRS. Les recherches fondamentales qui y sont menées ont des retombées potentiellement importantes dans les domaines médicaux et environnementaux.

Introduction

La compréhension fine de la cellule passe par le décryptage des mécanismes moléculaires permettant le fonctionnement de l’ensemble de ses machineries. Ce thème est largement porté par les chercheurs et laboratoires dépendant de la section 20. Le champ couvert par la section est vaste et fait appel à des approches très variées mais complémentaires allant de la biologie moléculaire à la modélisation en passant par la biochimie, la biologie structurale et la biophysique. Il s’agit d’identifier les macromolécules et les complexes qu’elles forment puis de caractériser leur structure et leur dynamique. Il faut ensuite replacer ces assemblages dans leur environnement cellulaire naturel pour comprendre le fonctionnement des réseaux d’interactions, de signalisation ou bien encore métaboliques, dont ils font partie.

De nombreuses équipes dépendant de la section 20 ont des approches abordant diverses échelles de temps et de dimension (de la molécule à la cellule voire à la population) et sont, par conséquent, très actives sur le front de la biologie intégrative. Leurs travaux, en permettant de comprendre, puis de concevoir et de construire des objets biologiques ayant des fonctions déterminées, ouvrent par ailleurs de nombreuses perspectives en biologie de synthèse.

Parmi les grands axes de recherche, on mentionnera la caractérisation moléculaire et structurale des protéines et des acides nucléiques, les aspects dynamiques et la réactivité des macromolécules et leurs assemblages, les mécanismes de transduction du signal et leurs régulations ainsi que les maturations post-traductionnelles. Quelques domaines sont l’apanage de la section parmi lesquels l’enzymologie, le métabolisme bactérien, la bioénergétique et la biologie fonctionnelle et structurale des protéines membranaires et des ARN.

Par essence, la section 20 a un positionnement interdisciplinaire à l’interface avec d’autres sections dépendant de l’INSB mais aussi avec les autres instituts du CNRS travaillant dans le domaine de la chimie, de la physique, des mathématiques et des sciences de l’ingénieur (INC, INP, INSIS). Ainsi, des liens forts existent avec les sections 21 (dans le domaine de la génomique), 22 (sur des aspects liés au transport, à la compartimentation et à la signalisation cellulaires), 23 (sur des aspects mécanistiques chez les végétaux), 27 (à travers la virologie et la bactériologie moléculaire et structurale), 28 (à travers l’ingénierie biologique) et 54 (instrumentation pour l’étude d’objets biologiques). Des liens étroits existent également avec la section 16 dépendant de l’INC (chémobiologie, spectroscopies, nouvelles sondes chimiques), la physique et les mathématiques étant quant à elles pourvoyeuses de modèles et d’outils de calcul dédiés.

Les laboratoires ayant la section 20 comme section principale ou secondaire se retrouvent dans tous les grands campus du territoire national : Paris, Saclay, Strasbourg, Lyon, Grenoble, Marseille, Montpellier, Lille, Toulouse, Bordeaux et Nancy.

Il convient de mentionner que les recherches de la section 20 ont des retombées potentielles dans le domaine médical à travers le développement de molécules actives ou dans le domaine environnemental à travers la recherche sur les bioénergies et la fermeture du cycle du carbone.

I. Biologie structurale

A. La révolution de la microscopie électronique

Les deux techniques « historiques » de la biologie structurale que sont la cristallographie aux rayons X et la RMN continuent à produire de nombreuses structures de protéines et de complexes macromoléculaires à résolution atomique – ce qui est indispensable pour en comprendre le fonctionnement -. Néanmoins, une troisième technique, la cryo-microscopie électronique (cryo-ME), est en train de changer le paysage dans le domaine.

Cette technique a connu une réelle révolution instrumentale et atteint maintenant sa pleine maturité. Les caméras à détection directe d’électrons, le développement de microscopes très stables et automatisables ainsi que de nouveaux logiciels d’analyse d’images permettent d’obtenir régulièrement des structures à une résolution meilleure que 3,5 Å.

Le nombre de structures tridimensionnelles déterminées par cryo-ME déposées chaque année ne cesse d’augmenter : il était d’environ 200 en 2010, de 1 100 en 2017 et de 1 700 en 2018. La proportion de structures affichant une résolution meilleure que 4 Å progresse également et représente en 2019 près de 50 % des structures déposées contre 30 % en 2018 et 25 % en 2017.

La cryo-ME permet de déterminer des structures de protéines de plus en plus petites : le record inférieur de taille pour une structure de protéine déterminée à résolution atomique est actuellement de 52 kDa. Ceci a été rendu possible grâce à un autre développement technologique : la plaque de phase.

Néanmoins, la cryo-ME est surtout devenue la technique de choix pour déterminer les structures à haute résolution de gros complexes multimoléculaires (tels que les virus réguliers et les machineries multi-protéiques ou nucléoprotéiques). Celles-ci étaient pour la plupart inaccessibles aux autres techniques de biologie structurale du fait de leur taille trop importante, de leur flexibilité et de leur variabilité conformationnelle. Ceci n’est pas un problème en cryo-ME car, in silico, il est possible de se focaliser sur les parties rigides des complexes ou bien de séparer un nombre discret de conformations. Lorsque les résolutions atteintes ne sont pas d’ordre atomique, les cartes de densité obtenues pour des complexes peuvent être combinées avec les structures atomiques des différents composants obtenues par d’autres méthodes pour générer des modèles dits pseudo-atomiques.

La cryo-ME a notamment permis de progresser dans la résolution de la structure des protéines membranaires, cibles thérapeutiques importantes pour l’industrie pharmaceutique. Bien que ces protéines fussent notoirement difficiles à cristalliser, de nombreux laboratoires disposaient déjà d’échantillons purs et homogènes, maintenus en solution soit à l’aide de détergents non ioniques ou d’amphipols, soit par insertion dans des nanodisques mimant l’environnement membranaire. Ces travaux préliminaires ont été déterminants pour la résolution de la structure des protéines d’intérêt par cryo-ME. Ces structures permettent d’avoir accès à l’interaction des protéines membranaires avec les lipides, de déterminer le mode d’action de différentes drogues dans le cas de récepteurs neuronaux et de transporteurs et, pour ces derniers, de comprendre les mécanismes d’efflux de drogues tels qu’antibiotiques ou anticancéreux.

Il convient aussi de mentionner la tomographie électronique, une technique qui consiste à reconstruire un volume unique (partie d’une cellule ou d’une bactérie, virus non régulier, etc.) en l’observant sous un grand nombre d’angles différents. Elle permet de déterminer la structure des complexes macromoléculaires dans leur contexte naturel. Néanmoins, la tomographie n’a pas encore atteint sa maturité : elle reste limitée en résolution en raison des dommages d’irradiation importants générés par les prises de vue multiples et la sensibilité limitée des caméras.

Malgré l’importance de ces techniques, il y a un manque flagrant de cryo-microscopes de dernière génération en France. Il n’y a actuellement qu’un seul microscope Titan Krios « français » à Strasbourg et un autre, européen, à l’ESRF qui sont disponibles pour la communauté nationale. On peut y ajouter un autre microscope Titan Krios installé à l’Institut Pasteur qui est néanmoins très peu accessible pour les utilisateurs externes. Ceci doit être comparé avec la vingtaine d’appareils disponibles en Angleterre et en Allemagne. Cet environnement n’est pas attractif pour des microscopistes travaillant à l’étranger et ne permet pas le développement de la cryo-ME en France. Le nombre de microscopistes présents en France reste donc insuffisant, même si les biologistes structuraux commencent à se former à cette technique et qu’un nombre croissant de candidats formés à l’étranger se présentent au concours d’entrée au CNRS. Le maintien de la compétitivité de la biologie structurale française passe donc par une augmentation significative du nombre de microscopes de pointe accessibles à la communauté.

B. De nouvelles techniques émergentes

En complément de la tomographie, de nouvelles approches sont actuellement en cours de développement. Elles ouvrent un champ plein de promesses dans notre compréhension des assemblages macromoléculaires et dans le domaine de la biologie structurale intégrative (cf. section VII.A).

On mentionnera d’abord la microscopie à force atomique à haute vitesse qui permet de suivre les changements de conformation en temps réel à l’échelle de la particule isolée mais aussi les derniers développements en spectrométrie de masse qui permettent d’étudier les complexes natifs et de cartographier les zones d’interactions entre protéines au sein d’un assemblage.

Enfin, l’avènement de la cristallographie sérielle et des lasers à électrons libres (X-ray free electron laser ; XFEL) permet un changement de paradigme en cristallographie macromoléculaire. Ces sources, 10 fois plus brillantes que les synchrotrons, autorisent la collecte de données à partir de nanocristaux à température ambiante. Cette technique permet aux chercheurs d’avoir une vision statistique des structures moléculaires et d’étudier la dynamique d’équilibre des protéines ou encore l’évolution de systèmes non-réversibles (jusqu’à une résolution de ~ 10-15 s dans les XFEL). Pour tirer pleinement avantage de cette technologie, il est maintenant nécessaire de développer des techniques permettant de disposer de quantités importantes de micro/nano cristaux de qualité. La possibilité d’obtenir des cristaux in vivo ouvre le champ à la détermination de structures de complexes naturels des protéines d’intérêt avec leurs cofacteurs.

De nombreux investissements ont été réalisés au niveau national et européen pour faciliter la mise en œuvre des expériences de cristallographie sérielle, avec la mise en place d’une seconde ligne de lumière dédiée à l’ESRF, d’une ligne de lumière dédiée à PETRAIII et la mise en place de configurations interchangeables à SOLEIL et DIAMOND. Le CNRS et le CEA ont aussi investi dans la construction du European XFEL et la ligne SPB/SFX, qui permet des expériences de pointe en (nano)-cristallographie sérielle résolue en temps. Certaines équipes du CEA et du CNRS ont aussi contribué au développement de la technologie. Néanmoins, les compétences adéquates devront être recrutées. Dans le cas contraire, il y a un risque réel que ces activités pionnières piétinent, voire s’éteignent, dans les laboratoires concernés.

II. Dynamique des macromolécules et de leurs assemblages

A. Dynamique moléculaire et modélisation

La relation entre la séquence d’une protéine ou d’un acide nucléique et leur(s) fonction(s) reste un des grands défis de la biologie. Bien qu’il paraisse intuitif que les propriétés des systèmes biomoléculaires soient codées par leurs séquences, leur décodage à travers l’établissement de modèles prédictifs reste un défi majeur. La difficulté tient notamment à la formidable complexité de la dynamique de tels systèmes et, en conséquence, de celle du paysage d’énergie des macromolécules biologiques. Les propriétés ne sont pas uniquement la conséquence de leur structure statique, mais sont associées à la dynamique d’interconversion entre de multiples états de stabilités relatives différentes. À titre d’exemple, l’activité de ligands sur les récepteurs couplés aux protéines G résulte de la sélection par les ligands de conformations spécifiques de ces récepteurs, qui oscillent entre différentes formes actives, inactives ou semi-actives.

L’augmentation de la puissance informatique laisse entrevoir la possibilité de simuler le comportement dynamique de systèmes biomoléculaires complexes sur des échelles de temps de plus en plus longues, permettant ainsi d’apporter des hypothèses sur les relations séquence-fonction. Toutefois, ces simulations produisent des quantités de données parfois délicates à stocker, manipuler et analyser. Dès lors, de nouvelles stratégies d’analyse se mettent en place, afin de tirer les informations pertinentes issues des modèles.

Le standard actuel vise l’augmentation de l’échantillonnage statistique des conformations moléculaires. Il est désormais clair que les deux piliers de la modélisation moléculaire, à savoir (i) la prédiction de l’affinité ligand-récepteur et (ii) l’échantillonnage des structures les plus stables requièrent des temps de calcul longs. Les temps de simulation à l’état de l’art se situent autour de la microseconde mais atteignent parfois la milliseconde, voire davantage.

Ces échelles de temps sont majoritairement accessibles grâce à l’utilisation de supercalculateurs, nationaux ou internationaux, qu’il faut continuer de faire évoluer régulièrement. À cet égard, la puissance et les temps de calcul typiquement obtenus sur les calculateurs nationaux restent assez faibles en comparaison avec la concurrence internationale. L’utilisation de cartes graphiques, maintenant utilisées en cryo-ME, permettrait d’atteindre des puissances qui surpassent de loin les processeurs classiques, mais les calculateurs nationaux restent en retrait sur de tels investissements, bien que le coût de telles cartes ne soit pas prohibitif.

Une alternative méthodologique permettant d’augmenter la force de l’échantillonnage repose sur la mise en œuvre de représentations alternatives de systèmes de grande taille. Les approches dites “gros gain” simplifient la version atomique d’un système moléculaire en utilisant des billes qui modélisent un ensemble d’atomes, comme tout ou partie d’un acide-aminé. La propagation des équations de dynamique moléculaire est alors grandement accélérée, permettant facilement d’atteindre des temps de l’ordre de la micro- ou la milliseconde. De telles simulations permettent de modéliser des effets difficilement accessibles par des approches plus conventionnelles, tels que de la plasticité de grands systèmes multipartenaires ou les courbures de membranes phospholipidiques. Des développements restent toutefois à poursuivre, notamment dans le cas où des approches hybrides sont nécessaires, par exemple lorsque certaines parties du système d’intérêt doivent absolument être représentées au niveau atomique. Dans la même logique, les approches hybrides mécanique quantique / mécanique moléculaire ont aussi fait la preuve d’un grand intérêt lorsque la description de réactions biochimiques entre en jeu. Pour l’ensemble de ces approches hybrides, la limitation du modèle est due à la représentation de l’interface entre les deux types de représentation moléculaire.

Éventuellement, la comparaison avec des données expérimentales mesurées sur des échelles de temps relativement longues se fait via l’utilisation de répliques d’un même système, simulées sur des temps plus courts. Des comportements très complexes, comme le repliement d’une protéine ou la cinétique d’association avec un ligand peuvent alors être modélisés en utilisant des algorithmes basés sur les chaînes de Markov. Il s’agit de combiner les informations obtenues sur des répliques du système qui capturent des informations cruciales pour établir un modèle qui récapitule une propriété associée à un temps plus long que celui de chacune des simulations. De telles approches ouvrent la voie à des interactions plus soutenues entre des équipes de modélisation et leurs partenaires qui réalisent les expériences en laboratoire.

Le lien des modèles numériques avec l’expérience est aussi fortement accéléré par la mise en œuvre d’approches de « machine learning ». Bien qu’étant d’un faible niveau explicatif, les approches d’intelligence artificielle offrent dans bien des cas des performances prédictives spectaculaires. L’intégration d’activités de chémo-informatique ou de chémo-protéo-métrique permettra de traiter les données de simulations de dynamique moléculaire de manière plus efficace et plus prédictive.

Au-delà des protéines isolées, la dynamique d’autres systèmes biomoléculaires fait l’objet de nouveaux défis. Grâce à l’augmentation des performances matérielles et logicielles évoquées plus haut, les systèmes multimériques complexes (associant éventuellement des protéines membranaires) deviennent accessibles à des temps de calculs longs, ce qui permet de décrypter des phénomènes à longue distance. De tels systèmes sont prototypiques des machines allostériques, pour lesquelles les signaux peuvent transiter sur des distances de plus de 30 Å.

En termes de flexibilité, les oligosaccharides et les ARN constituent une famille de composés de référence. La surface d’énergie des oligosaccharides est extrêmement complexe, ce qui constitue un défi pour la modélisation moléculaire. Les carbohydrates jouent un rôle central dans de nombreux systèmes biologiques, notamment dans les phénomènes de reconnaissance et d’adhésion hôte-pathogène. Les ARN sont des molécules très chargées qui adoptent des repliements très variés, difficilement prédictibles, dont la dynamique joue un rôle essentiel pour leur fonction. Dans ces deux cas, la compréhension d’une dynamique complexe, liée aux développements de champs de force adaptés, ouvre la voie à la conception rationnelle de ligands mimétiques de haute affinité.

B. Protéines intrinsèquement désordonnées

Du point de vue de la dynamique de la chaîne polypeptidique, les protéines intrinsèquement désordonnées (IDP) constituent un cas extrême. Elles sont beaucoup plus présentes chez les eucaryotes que chez les procaryotes, ce qui pose d’ailleurs des questions concernant leur apparition et leur évolution. Elles contiennent de grands segments de leur séquence qui ne possèdent pas de structure tertiaire définie et qui ont une faible propension à adopter des structures secondaires canoniques. Il est prédit qu’environ 35 % des protéines humaines contiennent des séquences de plus de 30 acides aminés contigus qui n’adoptent pas de structure définie. Dans des cas extrêmes, le désordre structural peut s’étendre à l’ensemble de la chaîne polypeptidique.

Ces protéines possèdent en général un grand nombre de partenaires et jouent un rôle central dans les réseaux d’interactions protéine/protéine et protéine/ARN. L’interaction avec un partenaire peut se traduire par une transition désordre/ordre et la formation locale d’une structure secondaire au site de liaison. Néanmoins, dans certains cas, le désordre semble subsister au sein même du complexe. Un domaine désordonné, en interagissant transitoirement avec un domaine structuré adjacent ou non, peut aussi influencer l’interaction de ce dernier avec un partenaire. Les aspects thermodynamiques associés au comportement de ces domaines désordonnés restent d’ailleurs assez méconnus.

Bien qu’étudiées depuis plusieurs années, ces protéines sont l’objet d’un regain d’intérêt important puisqu’il apparaît qu’elles sont à l’origine de séparation de phases conduisant à la formation d’organites liquides (cf. VI.) et sont aussi impliquées dans la formation de structures amyloïdes potentiellement pathogènes.

Une des questions majeures dans le domaine concerne l’ensemble de conformations décrit par ces protéines. La spectroscopie RMN en solution convient particulièrement à ces études même pour de très grandes protéines intrinsèquement désordonnées. Couplée au SAXS, elle permet de décrire les conformations majoritaires en solution, le taux d’occupation de ces conformations par la protéine ainsi que l’influence de la présence d’un ligand sur l’ensemble des conformations. Néanmoins, toutes ces études ont été réalisées in vitro et en solution. Le défi dans le domaine est maintenant de comprendre l’influence de l’encombrement moléculaire sur cet ensemble et aussi si ce sont les mêmes conformations qui sont présentes au sein des organites liquides dans la cellule. Pour cela, il faudra travailler sur des systèmes reconstitués ou caractériser directement le comportement de ces protéines dans la cellule. Ceci implique des développements en RMN qui, couplés à des études en smFRET (impliquant des incorporations d’acides aminés non naturels et de la chimie click) devraient permettre de mieux comprendre le comportement dynamique de ces protéines et d’identifier les interactions faibles à l’origine de la séparation de phase.

Enfin, si de nombreux programmes permettent l’identification des régions intrinsèquement désordonnées dans une séquence protéique, il est encore délicat de prédire leur propension à adopter une structure secondaire particulière et l’espace conformationnel, très vaste, exploré par ces domaines désordonnés n’est que très difficilement modélisable. De même, leur capacité à induire une séparation de phase n’est pas prédictible. Ceci s’explique probablement par notre ignorance de la nature des interactions faibles permettant la cohésion de la phase liquide formée par ces polypeptides mais aussi par la très grande variabilité de ces régions dans des protéines homologues.

III. ARN

A. ARN régulateurs

Les ARN régulateurs englobent non seulement les ARN non codants bactériens et eucaryotes, mais aussi un grand nombre d’ARN codants dont certains domaines structurés jouent un rôle régulateur. Les ARN non codants bactériens sont impliqués dans de vastes réseaux de régulation dont on découvre progressivement la complexité. Ces réseaux comprennent aussi bien des régulateurs de la transcription que de la traduction ou de la stabilité des ARNm. Ils régulent un nombre important de fonctions, allant de l’adaptation du métabolisme aux fluctuations du milieu jusqu’à la virulence des bactéries pathogènes. Il est à noter qu’il existe aussi des ARN régulateurs chez les phages et que nombre d’exemples de régulation croisée entre phages et bactéries ont été décrits.

Chez les eucaryotes, les miARN (micro-ARN) sont aussi impliqués dans des réseaux complexes de régulations en agissant au niveau post-transcriptionnel ; ils jouent un rôle dans de nombreuses fonctions normales et dysfonctionnements pathologiques (cancers, problèmes cardiaques liés à l’âge, etc.) et leur niveau d’expression (synthèse et dégradation) est lui-même finement contrôlé. Bien que leur activité antivirale chez les plantes soit bien établie, leur efficacité dans la défense innée contre les virus chez l’homme reste un sujet d’intenses recherches. Des miARN ont été identifiés dans les exosomes et participent à la communication intercellulaire en ciblant les ARNm dans les cellules réceptrices. Certains miARN sont spécifiquement incorporés dans les exosomes dans certains cancers, dont ils constituent des marqueurs prometteurs.

Il n’est pas rare que les ARNm procaryotes et eucaryotes possèdent des structures secondaires et tertiaires qui régulent la transcription (notamment la terminaison de la transcription bactérienne) et la traduction (principalement l’étape d’initiation). Ces motifs, et particulièrement les riboswitches qui répondent à des variations de concentration de leur ligand, sont récemment devenus des outils de choix en biologie synthétique. Les motifs régulateurs sont particulièrement fréquents et variés dans les virus dont le génome est constitué d’ARN : en plus de la traduction (voir la diversité des IRES viraux), ils régulent une variété de fonctions dont la réplication du génome, sa maturation (épissage, polyadénylation) et son export du noyau cellulaire (CTE rétroviral) et constituent des cibles potentielles pour des approches antivirales.

B. Structure des ribonucléoprotéines et des ARN : évolutions récentes et enjeux méthodologiques

Les développements de la cryo-ME ont permis de faire des avancées spectaculaires dans l’analyse de la structure tridimensionnelle à haute résolution de certaines ribonucléoprotéines. Ainsi, des structures à haute résolution des ribosomes bactériens, eucaryotes, mitochondriaux et de parasites sont maintenant disponibles. Les structures de divers complexes d’initiation de la traduction non canonique (IRES) et du ribosome avec plusieurs partenaires impliqués dans la traduction ont été obtenues, de même que celles de ribosomes « en hibernation ». Ceci devrait permettre le développement de nouveaux inhibiteurs de la traduction bactérienne. En outre, des structures de ribosomes en cours d’assemblage sont maintenant disponibles et permettent de comprendre les contrôles de qualité mis en jeu et les mécanismes de compaction de l’ARNr au cours de ces étapes. À côté des ribosomes, l’étude structurale du spliceosome a récemment fait des progrès remarquables et des structures en cryo-ME de la presque totalité des complexes impliqués dans les différentes étapes de l’épissage ont maintenant été obtenues. Cependant, la plupart des ribonucléoprotéines et des ARN se prêtent encore mal à l’analyse par cryo-ME à cause de leur flexibilité extrême.

Lorsque les données à haute résolution font défaut, les approches biochimiques couplées au séquençage à haut débit, et en particulier la cartographie chimique de l’ARN, pour laquelle des sondes traversant les membranes des bactéries, des cellules eucaryotes et des virus ont été développées, restent des techniques de choix. Les pontages couplés au séquençage à haut débit, bien que moins résolutifs permettent d’identifier les régions de l’ARN en interaction. Les défis à relever par ces méthodologies sont l’analyse structurale des populations d’ARN lorsque plusieurs structures coexistent et l’augmentation de leur sensibilité, afin d’étudier des ARN peu exprimés ou des structures minoritaires. Cette augmentation de sensibilité est aussi un objectif majeur pour l’imagerie des ARN dans les cellules fixées et surtout vivantes. Dans ce dernier cas, le développement de nouveaux outils ne requérant que des modifications limitées de la séquence des ARN d’intérêt constitue un enjeu de premier ordre. Les développements importants de la spectrométrie de masse bénéficient aussi à l’étude des ARN et des ribonucléoprotéines, d’une part en permettant l’identification des protéines associées aux ARN et d’autre part en permettant l’analyse des nucléotides modifiés de l’ARN avec une grande sensibilité.

C. Nucléotides modifiés des ARN : l’épitranscriptomique, un nouveau champ d’investigation

L’étude des nucléotides modifiés dans les ARNt a donc pris récemment un nouvel essor grâce aux évolutions de la spectrométrie de masse et du séquençage à haut-débit. L’analyse comparative de l’ensemble des nucléotides modifiés des ARNt chez plusieurs organismes devient progressivement réalité et devrait permettre de mieux comprendre leurs rôles dans la stabilité des ARNt, le décodage fin de l’information génétique et l’adaptation des cellules aux différents stress.

Par ailleurs, jusque récemment, les ribosomes étaient considérés comme des exécutants, traduisant les ARNm disponibles en protéines dès l’instant où les acides aminés étaient suffisamment abondants. Il apparaît aujourd’hui que le ribosome est un acteur direct du contrôle traductionnel. La notion de ribosome spécialisé est en train d’émerger. Cette spécialisation va dépendre des protéines associées au ribosome, des modifications post-traductionnelles de ces protéines mais aussi des modifications de nucléotides sur l’ARNr. Ces nucléotides modifiés des ARNr des ribosomes humains peuvent être visualisés par cryo-ME, ce qui permet d’expliquer leurs rôles structuraux et fonctionnels. L’étude de ces ribosomes spécialisés, impliqués dans la régulation de différent processus cellulaires, n’en est qu’à ses débuts mais ils viennent d’être mis en cause dans l’initiation et la progression tumorale. Leur caractérisation devrait donc aboutir à de nouvelles découvertes fondamentales et appliquées dans les années à venir.

Enfin, l’évolution récente majeure concernant les modifications de l’ARN est la découverte que de nombreux ARNm contiennent des modifications telles que m6A, m1A, m5C, I ou Ψ, qui sont le plus souvent incorporées en réponse à divers stress. La modification la plus étudiée, m6A est dynamique : elle est ajoutée et enlevée grâce à des enzymes spécifiques et recrute des protéines qui régulent, entre autres, l’épissage alternatif, la traduction et la stabilité des ARNm. Lorsque les ARNm contiennent plusieurs résidus m6A, certaines protéines cytosoliques induisent des séparations de phases – cf. V. – créant des compartiments sans membranes tels que les P-bodies, les granules de stress et des granules d’ARN neuronaux.

Il ne fait aucun doute que nous n’avons fait qu’effleurer la complexité de l’épitranscriptome qui ajoute un nouveau niveau de régulation à l’expression des gènes avec des retombées importantes attendues en biologie-santé.

IV. Glycanes et glycosylation

La glycosylation produit une classe de biomolécules, très abondantes et caractérisées par une extraordinaire diversité. Les glycanes sont pourvoyeurs d’une densité d’information biologique considérable. À l’ère post-génomique, la glycomique, qui vise à établir l’entièreté du répertoire des glycanes d’une entité biologique (cellule unique, tissu ou organisme dans une situation physiopathologique donnée), et le déchiffrage du glycocode (information biologique reçue et envoyée par les glycanes) sont parmi les enjeux majeurs de la biologie du xxie siècle.

La glycobiologie a aussi de nombreuses retombées applicatives en biotechnologie (agriculture, industrie du bois et du papier, agroalimentaire, biomatériaux, etc.) et pharmacologie (vaccins et antibiotiques). De multiples principes actifs de plantes sont des molécules glycaniques avec des applications potentielles dans le domaine des maladies infectieuses et du cancer. Ainsi, les glyco-actifs et les molécules ciblant les interactions protéine-sucres représentent une nouvelle génération de médicaments, notamment dans le domaine des anti-infectieux, qui pourraient apporter des réponses dans la lutte contre les résistances.

Les glycanes sous toutes leurs formes (i.e. sucres simples, polymères, glycoconjugués dans les glycoprotéines, protéoglycanes, glycolipides), sont historiquement connus comme fournisseurs d’énergie et pour leur rôle architectural tant au niveau de la paroi des végétaux que dans les tissus conjonctifs des animaux. Cette dernière décennie est surtout marquée par la découverte de la capacité fascinante des glycanes à élaborer un langage biologique sophistiqué. Celui-ci régit les mécanismes de communication entre cellules, entre les cellules et leur environnement et entre différents compartiments cellulaires.

Au niveau de la cellule et de l’interface cellule-matrice extracellulaire, il est de première importance d’appréhender les rôles des glycanes dans le repliement et la dynamique des protéines, les mécanismes de reconnaissance intercellulaire et hôtes-pathogènes, la régulation de la transduction du signal par les récepteurs à tyrosine-kinase et les protéoglycanes, la gouvernance des régulations épigénétiques et transcriptionnelles (par O-GlcNAcylation par exemple).

La synthèse des glycoconjugués fait intervenir l’action finement régulée des CAZymes (carbohydrate-active enzymes) qui gouvernent l’expression du répertoire de sucres dans un glycome donné. L’étude de ces CAZymes représente tout un pan de la glycobiologie dans laquelle la France bénéficie d’une reconnaissance internationale élevée mais fragile, basée sur la renommée de laboratoires individuels dont certains assurent le maintien et la mise à jour de la banque CAZymes qui sert de référence à la communauté internationale.

Les progrès en glycobiologie, tant au niveau de leur connaissance fondamentale que de leurs applications, sont retardés par une boite à outils incomplète pour la détermination de la composition chimique et de la structure des glycanes, des glycoconjugués et des complexes protéines-glycanes. Le développement de méthodes pour la détection, l’imagerie, la séparation et la détermination de la structure 3D des glycanes à haute résolution est un objectif à atteindre dans les dix prochaines années. Ces méthodes devront être accessibles aux laboratoires non spécialisés si on veut développer une glycobiologie véritablement intégrative. Des avancées technologiques sont tangibles mais elles tardent à entrer dans l’usage courant.

En premier lieu, l’analyse de la structure primaire des glycanes reste un défi dû à la diversité des monomères de sucres et de leurs liaisons entre eux. La détermination de l’isomérie des sucres est aussi un challenge. Le séquençage des glycanes s’appuie sur l’utilisation systématique de lectines couplées à des enzymes hydrolytiques et de la spectrométrie de masse. Des techniques innovantes, telles que le couplage de la spectrométrie de masse et de la spectrométrie laser (combinant l’analyse simultanée de la masse et des vibrations permettant une signature bidimensionnelle de la structure d’un saccharide) semblent prometteuses. L’objectif est de parvenir à déterminer la structure de n’importe quel glycane ou glycoforme de glycoprotéine dans tout échantillon. Pour l’analyse de la structure 3D, compliquée par la flexibilité conformationnelle des sucres, la RMN reste la technique de choix qui doit être couplée à des approches de modélisation, notamment faisant appel à la dynamique moléculaire, qui restent un challenge sur ce type de molécules (cf. II.A).

En glycomique, les techniques de glyco-arrays sont en plein développement et sont en train d’apporter des avancées spectaculaires. À l’aide de lectines ou d’anticorps greffés sur des puces, ces techniques permettent de cribler des glycoconjugués marqués par fluorescence au sein d’un échantillon. Sous forme de glyco-arrays, elles permettent de cribler les interactions protéine-sucres. La France est clairement en retard dans l’implémentation de ces techniques qui pourtant, combinées aux autres « omiques », devraient apporter des résultats importants.

De façon complémentaire, il faudra développer des outils pour manipuler les glycanes, telles que les enzymes (CAZymes), natives ou modifiées par ingénierie, ainsi que celui d’inhibiteurs qui permettent de modifier des voies métaboliques et d’en appréhender les conséquences in cellula ou in vivo dans des stratégies de chemobiologie. Dans ce domaine, l’utilisation de précurseurs de sucres non naturels couplés à la chimie click est particulièrement intéressante pour la détection in cellula des glycoconjugués.

Deux domaines connexes situés à l’interface de la section 20 et d’autres sections sont indispensables à développer. Tout d’abord, la recherche sur les glycanes se heurte à l’accès limité aux sucres de structure définie. Il est absolument nécessaire que les glycobiologistes et toute la communauté puissent disposer dans un futur proche de glycanes simples et complexes à des fins de standard et d’outils d’analyses. Cet objectif peut être atteint par des efforts importants en chimie de synthèse ou synthèse chimio-enzymatique, qui requiert des compétences dédiées. Ensuite, la glycobiologie doit s’adapter à l’augmentation considérable des données scientifiques et à leur complexité. L’information sur les glycanes n’est actuellement pas encore accessible de façon fluide. La création d’une banque centralisée apparaît donc indispensable.

Un enjeu majeur est d’intégrer définitivement les glycosciences dans la biologie « classique ». Pour cela, il est indispensable d’inclure l’apprentissage des glycanes dans le curriculum des biologistes et des acteurs biomédicaux au même titre que celui des acides nucléiques et des protéines.

La glycobiologie en France s’appuie sur une communauté soudée, dynamique et bien structurée. Différents laboratoires ont contribué à l’établissement du glycome d’organismes modèles. Cependant, les verrous technologiques à faire sauter sont complexes et cette communauté doit être soutenue. En ce sens, il serait important de promouvoir la formation d’un réseau français d’expertise en glycobiologie pour mettre en place une structure opérationnelle (de type Infrastructure de Recherche) interdisciplinaire capable de répondre aux demandes d’analyses, de développements technologiques et de formations des laboratoires. La France pourrait ainsi conserver une place de leader (5e au niveau mondial après les USA, le Japon, le Royaume Uni et l’Allemagne pour les publications en glycobiologie), sortir cette discipline de l’isolement pour qu’elle irrigue l’ensemble de la communauté scientifique.

V. Des enzymes au métabolisme

Les enzymes constituent une classe de protéines d’un intérêt particulier. Au-delà des études permettant une vision intégrée de la structure des enzymes, de leur dynamique et de leur fonction, l’enjeu majeur pour les années à venir porte sur le décryptage des réseaux métaboliques auxquels elles participent, leurs interactions, ainsi que sur notre capacité à modéliser et prédire leur comportement.

La mise en évidence récente d’un nombre élevé de protéines multifonctionnelles ou de complexes transitoires souligne l’importance de ces enjeux dans la compréhension du fonctionnement des cellules. Il convient donc d’intégrer nos connaissances moléculaires à l’échelle supérieure et de mieux appréhender comment se forment et se régulent ces réseaux métaboliques. Les questions liées à l’organisation et la compartimentation cellulaire, à l’émergence de complexes métaboliques (métabolons) stables ou transitoires et à l’existence de compartiments métaboliques non membranaires (compartiments protéiques et séparation de phases – cf. VI – dans lesquels le rôle des IDP – cf. II.B –, véritables nœuds métaboliques, reste à explorer.) doivent être envisagées à toutes les échelles du vivant.

Il s’agira notamment de comprendre comment, à l’échelle moléculaire, les variations de structure des enzymes individuelles ou les modes d’assemblage des complexes multi-enzymatiques modifient les flux métaboliques, et de remonter progressivement vers l’échelle cellulaire de ces phénomènes jusqu’à l’analyse détaillée de la répartition en fonction du temps des macromolécules, au sein (ou non) de complexes stables ou transitoires, et des métabolites dans les différents compartiments cellulaires.

Il faudra mettre en place des approches analytiques quantitatives dépendant d’outils physiques de mesure destructive (spectrométrie de masse, imagerie par spectrométrie de masse, techniques omiques sur cellules individuelles, microscopie électronique) ou non destructive (RMN in vivo, mesure de fluorescence en cellule unique ou en comptage) pour obtenir une quantification et une localisation précises des différents métabolites et ainsi construire des cartes de flux métaboliques. Enfin, si on souhaite être capable de prédire le comportement métabolique cellulaire, une intégration de ces données dans des modèles mathématiques (qui restent à développer) sera nécessaire. Il faudra aussi se doter d’outils permettant d’approcher au mieux les paramètres enzymatiques directement dans la cellule, dans un contexte métabolique donné, pathologique ou même synthétique, afin de compléter la somme de données acquises in vitro.

Au sein des métabolismes, celui en lien avec la production d’énergie, reste en perpétuelle évolution. Ce domaine associe toutes les composantes de la biologie et de la chimie. Des travaux sont indispensables pour comprendre comment à l’aide de modules a priori identiques, la nature arrive à produire et consommer de l’énergie à partir de sources extrêmement diverses.

La grande variété et la flexibilité des métabolismes terrestres reflètent la variabilité spatiotemporelle de l’environnement géochimique sur fond duquel la vie a évolué. La mise en évidence de la biodiversité, ainsi que le décryptage des métabolismes fondamentaux, des mécanismes d’adaptation et de résistance des micro-organismes aux conditions extrêmes sont des enjeux importants pour les sciences du vivant. Ils peuvent également être la source d’applications biotechnologiques essentielles, comme la recherche de nouvelles sources d’énergie (bio-conversions, biomasse, production de biogaz et d’hydrogène, etc.) ou celle de meilleures conditions du développement durable (bioremédiation, interactions bactéries/environnement, etc.). Ces connaissances permettront enfin de mieux appréhender les effets à long terme de la dégradation anthropogénique actuelle de la biodiversité.

L’identification de nouveaux systèmes moléculaires et métaboliques doit permettre de progresser dans la recherche de corrélations et similitudes entre des voies bioénergétiques apparemment différentes et de mieux comprendre, entre autres, la transition évolutive procaryotes/eucaryotes. Pour cela, notre capacité à réinterpréter les données génomiques à la lumière des métabolismes alternatifs sera décisive. À l’heure actuelle, l’annotation fonctionnelle sur la base des séquences reste incomplète, notamment à cause de la difficulté d’analyser des fonctions enzymatiques dans des systèmes à haut débit. L’enjeu est donc d’aller plus vite et plus efficacement du gène à la fonction de l’enzyme. Il est évident que ce type de caractérisation passera par des analyses directement in vivo, seules capables d’automatisation et miniaturisation suffisantes pour assurer le débit nécessaire permettant de suivre l’augmentation des données génomiques.

VI. Compartimentation non membranaire

La compartimentation de la cellule eucaryote est en train de vivre une révolution dont on peut penser qu’elle sera aussi féconde que celle des ARN non-codants au tournant du millénaire. Dans le cytoplasme et à l’intérieur du noyau, un nouveau type d’organites a été mis en évidence. Ces organites, dépourvus de membrane, étaient pour certains identifiés depuis longtemps mais c’est seulement très récemment qu’on a caractérisé leur nature physico-chimique. Ces organites ont des propriétés liquides et sont formés par séparation de phase. Ils sont associés à des fonctions cellulaires essentielles : nucléoles dans lesquels se déroule la synthèse des ribosomes, nuclear speckles associés à l’épissage des ARNm, corps de Cajal impliqués dans l’assemblage des snRNP – pour ceux qui se situent dans le noyau – ; granules de stress ou P-bodies séquestrant les ARNm et régulant leur traduction, compartiments dédiés à la production de métabolites secondaires chez les plantes – pour ceux qui sont localisés dans le cytoplasme –.

Les organites liquides sont beaucoup plus dynamiques que les organites membranaires. Très sensibles à leur environnement physico-chimique, ils s’assemblent et se désassemblent en l’espace de quelques secondes. Ils sont très fortement enrichis en certaines protéines (spécifiques de l’organite) ou en métabolites particuliers. Ils peuvent aussi contenir des sous-compartiments formés par la coexistence de phases liquides non miscibles. Certaines de ces phases peuvent être constituées de mélange de sucres et/ou d’autres molécules conduisant à la formation de liquides ayant des propriétés de solvants eutectiques.

Comme indiqué précédemment, les protéines contenant des domaines intrinsèquement désordonnés semblent jouer un rôle clef dans la formation de ces organites qui contiennent par ailleurs très souvent des ARN et des protéines liant ces derniers.

Cette compartimentation originale pose des questions nouvelles. Il faudra identifier les interactions faibles qui maintiennent la cohésion de ces organites. Elles semblent impliquer les domaines intrinsèquement désordonnés mais aussi résulter des propriétés de synthèse d’enzymes associées à la production de métabolites secondaires. La RMN et le FRET sur molécule unique ont là de nouveaux objets d’étude. Il faudra aussi caractériser le protéome et la composition en ARN de chacun de ces organites et distinguer les protéines ou les ARNs à l’origine de la séparation de phase, ceux qui se retrouvent dans l’organite à cause de leurs propriétés physico-chimiques et enfin ceux qui y sont parce qu’ils lient une protéine du type précédent. Il faudra identifier les maturations post-traductionnelles qui régulent la formation de ces organites. Enfin, il faudra recenser ces organites. Comme certains de ces organites pourraient avoir des tailles inférieures à 200 nm ou bien être détruits par les techniques de fixation cellulaire, il est possible que seuls les plus gros et les plus stables d’entre eux aient été identifiés. Il est d’ailleurs fort probable que ces nouveaux compartiments, essentiellement mis en évidence chez les eucaryotes, soient également présents chez les bactéries et les archées.

Cette compartimentation est un changement de paradigme qui va changer la vision de la signalisation et du métabolisme au sein de la cellule – on le voit déjà poindre dans le domaine de l’immunité innée et dans le domaine de la production de métabolites secondaires des plantes –. Il ne fait guère de doute qu’elle aura aussi un impact majeur dans les domaines de la transcription, de l’organisation et du maintien de l’intégrité du génome et de la division cellulaire.

Cela va aussi modifier notre façon de penser l’encombrement moléculaire et devrait nous permettre d’expliquer bien des paradoxes concernant la rencontre de deux entités cellulaires et in fine avoir un impact majeur en enzymologie et en biologie synthétique.

Les équipes relevant de la section 20 possèdent les outils pour s’attaquer à cette nouvelle problématique. Ces études devraient se développer en collaboration avec des équipes relevant de la section 22 mais aussi de la 21. Des études à l’interface avec les chimistes et les physiciens de la matière molle devraient également être très fructueuses.

VII. Micro-organismes et interactions hôtes pathogènes

A. Communauté bactérienne et microbienne

Les avancées sur le fonctionnement et la régulation des organismes complexes n’ont souvent été possibles que grâce à l’étude de microorganismes modèles, se développant en culture pure, dans des milieux bien contrôlés. La recherche en microbiologie prend actuellement un tournant sans pareil avec l’étude des microbiotes, à savoir l’ensemble des micro-organismes (bactéries, microchampignons, protistes, virus, bactériophages) vivant dans un environnement spécifique chez un hôte ou en interaction avec une matière. Les microbiotes jouent des rôles divers, parfois clés, aussi bien au niveau de la planète (par exemple au niveau du cycle du carbone ou azote et au niveau de tous les écosystèmes) qu’à celui de l’Homme (par exemple dans l’obésité, la sensibilité aux infections, les pathologies inflammatoires et auto-immunes, etc.).

L’organisation et le fonctionnement du microbiote, aux capacités de résilience étonnantes, ouvrent donc un nouveau champ d’étude. De nouvelles approches sont nécessaires pour lier les études moléculaires aux phénotypes observés à l’échelle des micro-communautés. Il faudra pour cela développer une approche interdisciplinaire associant biologie, physique, chimie, mathématique et intégrer la dimension multi-échelle, afin de comprendre l’émergence de propriétés au niveau populationnel, d’en exploiter les potentialités et ainsi répondre à des problématiques sociétales dans le domaine de la santé, de l’énergie ou de l’environnement.

Le séquençage haut débit a permis de montrer la très grande diversité en espèces de ces microbiotes. Par exemple, plus de 1 000 espèces bactériennes différentes constituent le microbiome humain et le microbiote intestinal contiendrait à lui seul 3,3 millions de gènes codant pour des protéines uniques (à comparer aux 23 000 gènes de l’Homme). Le microbiote humain n’inclut pas seulement des bactéries, mais aussi des archées, des virus (majoritairement des bactériophages), des protistes et des microchampignons et la recherche sur ces autres organismes au sein des microbiotes a été beaucoup moins poussée. Enfin, le microbiote est spécifique à chaque individu et, contrairement au génome, il varie en fonction de facteurs environnementaux (nutrition, antibiotiques, hygiène) et est dynamique au cours de la vie.

Les challenges pour les années à venir concernant les microbiotes sont nombreux. Il s’agira d’analyser la diversité couverte par le génome microbien, le transcriptome, le protéome, et le métabolome. Ceci conduira à des quantités importantes de données expérimentales bien supérieures à celles qu’on peut traiter actuellement. Caractériser le protéome et le métabolome de milliers de microbiotes impliquera de développer des outils informatiques de stockage (base de données) et des logiciels afin d’accroître nos capacités d’analyse et d’intégration de ces données issues des approches haut débit. Pour comprendre le rôle de tous ces gènes dans les processus biologiques des organismes et synthétiser les données dans des modèles prédictifs, il faudra aussi développer des approches innovantes permettant d’identifier des protéines spécifiques et les activité biologiques et métaboliques associées. Étudier ces microbiotes impliquera également de savoir les manipuler pour tester leurs fonctions, évaluer leur impact et ultérieurement contrôler leurs activités. Il faudra donc réussir à reconstituer ces communautés microbiennes pour étudier les interactions entre leurs membres et développer de nouveaux modèles expérimentaux afin de décrypter les mécanismes moléculaires sous-jacents.

Ces communautés bactériennes où les bactéries se développent au sein de consortia multicellulaires (uni-espèces ou multi-espèces) structurés et différenciés conduisent au concept de « méta-organisme » et constituent de nouveaux modèles d’étude pour comprendre comment dans l’espace et dans le temps des milliers de cellules coopèrent, et participent au fonctionnement de la communauté. Le comportement d’un microbiote n’est pas la somme des comportements individuels et reste pour l’instant peu prévisible. Il conviendra de développer une vision intégrative permettant de relier les échelles, de la molécule à la cellule et de la cellule à la communauté afin de modéliser le fonctionnement de ces communautés à toutes les échelles spatio-temporelles. Imager les microbiotes est un défi et des outils devront être développés pour manipuler ces échantillons (épais, opaques, pouvant inclure des tissus) et les visualiser en 3D et en temps réel. Les avancées récentes en spectrométrie de masse avec en particulier le développement de sources de type nano-SIMS (secondary ion mass spectrometry) permettront aussi des avancées dans ce domaine. Cette technologie d’imagerie moléculaire permet de réaliser des analyses avec une résolution spatiale allant jusqu’à 50 nm et ainsi de détecter, localiser et analyser la métabolisation de composés à l’échelle de la cellule procaryote. L’imagerie par spectrométrie de masse pourrait, en complément des analyses de type « omiques » in situ, permettre d’étudier les dialogues moléculaires au sein du microbiote qui en impactent la dynamique. Dans ce contexte, un autre challenge sera aussi d’identifier et caractériser la matière noire des microbiomes (99 % des micro-organismes ne peuvent pas être cultivés).

Dans le contexte médical, avec l’accélération alarmante de l’apparition de souches multi-résistantes aux antibiotiques qui laisse présager un manque crucial d’antibiotiques efficaces dans un futur proche, la connaissance des relations hôtes-pathogènes reste un enjeu majeur pour le développement de stratégies thérapeutiques et vaccinales. La compréhension au niveau moléculaire des mécanismes infectieux constitue un outil puissant pour la mise en place d’approches thérapeutiques et préventives ciblées et doit rester une priorité. Par ailleurs, les relations entre hôte et microbiote commencent à être explorées et révèlent des processus biologiques complexes impliqués dans de nombreuses pathologies. De même, peu de choses ont été étudiées sur l’effet de la réponse de l’hôte (animal ou plante) sur ce consortium très dynamique de microbes. Décoder les mécanismes à l’origine de la stabilité des microbiotes chez les sujets sains, devrait permettre d’identifier les causes de maladies associées aux microbiotes et donner lieu à de nouvelles applications thérapeutiques.

Le microbiote environnemental mérite également une grande attention. Associé aux grands cycles géochimiques et d’un grand potentiel applicatif dans le domaine de l’énergie (dégradation de la biomasse, production de biofuels), de l’agriculture (rhizobiotes positifs) et de l’environnement (biodépollution, biolixiviation), il convient d’appréhender son fonctionnement fin et de faire le lien entre les grands principes décrits par les écologues (coopération, prédation, mutualisme…) et le sens et la régulation de ces principes au niveau métabolique. Ainsi, le rôle des interactions métaboliques dans la résilience des systèmes, les bases moléculaires de la communication au sein des microbiotes et leur régulation reste un vaste champ à investiguer.

B. Virus

Au-delà de leur impact en santé publique et au niveau économique, les virus sont des objets biologiques présentant des propriétés remarquables. D’une part, les interactions qu’ils doivent établir avec leur hôte permettent l’investigation de nombreuses fonctions cellulaires. D’autre part, leurs extraordinaires capacités adaptatives dues à leur nombreuse progéniture et à la faible fidélité de leurs réplicases (en particulier chez les virus à ARN ou les rétrovirus) sont à l’origine de l’émergence de mécanismes enzymatiques originaux et de fonctions nouvelles. Enfin, leurs capacités à intégrer de nouveaux gènes ou à en transférer vers leurs hôtes constituent des moteurs majeurs de l’évolution et en font des outils très puissants en biotechnologie.

Un grand nombre de fonctions cellulaires, dévoyées par les virus, ont été identifiées depuis plusieurs années. Ici, le challenge n’est généralement plus l’identification des couples protéine virale/protéine cellulaire à l’origine de ces interactions mais plutôt la description fine des mécanismes permettant ces détournements de fonctions. C’est ainsi le cas pour le dévoiement des récepteurs et des mécanismes d’endocytose cellulaires lors de l’entrée, l’exploitation du cytosquelette et des moteurs moléculaires lors du transport intracytoplasmique des particules virales ou de leurs composants, etc. Il apparait d’ailleurs que même au sein d’un genre ou d’une famille virale, les bases moléculaires de ces détournements présentent une grande diversité qui reflète encore une fois les capacités adaptatives des virus.

De nouvelles interactions entre les virus et leurs hôtes ont été identifiées plus récemment. On mentionnera la découverte des usines virales, c’est-à-dire de compartiments viraux formés dans la cellule et abritant certaines étapes clefs du cycle viral (synthèse des acides nucléiques, assemblage total ou partiel des particules). Ces compartiments sont très divers. Ils peuvent être associés à des membranes, voire entourés par elles. Ces membranes peuvent être elles-mêmes dérivées d’organites cellulaires (comme chez les virus à ARN positif) ou synthétisées de novo (chez certains gros virus à ADN). Ces usines peuvent aussi former des inclusions cytoplasmiques dépourvues de membrane et posséder des caractéristiques d’organites liquides (cf. VI). De façon générale, on connaît mal la nature précise et l’organisation de ces usines et encore moins les principes physicochimiques à l’origine de leur formation alors même qu’elles pourraient constituer de nouvelles cibles thérapeutiques dans des stratégies antivirales.

On mentionnera aussi la découverte de la capacité des virus à réorienter les grandes voies métaboliques à leur profit. Ceci ouvre un grand champ de recherche encore inexploré et devrait certainement avoir un impact en médecine.

On terminera ce panorama des interactions virus-hôtes en mentionnant les interactions complexes entre virus et immunité innée. De nombreux motifs moléculaires associés à l’infection de virus et reconnus par des protéines senseurs ont été identifiés. Il est néanmoins très probable que d’autres motifs et d’autres senseurs restent à découvrir. L’initiation et la régulation fine des diverses cascades de signalisation menant à la synthèse d’interféron restent à caractériser au niveau moléculaire. De la même façon, de nombreux gènes induits par l’interféron ont été identifiés mais souvent la fonction de leur produit reste inconnue. Parmi ceux-ci, de nouveaux facteurs de restriction de la réplication des virus sont régulièrement identifiés et leur étude apporte des informations importantes non seulement sur les virus mais aussi sur la cellule et met en lumière des stratégies originales de lutte antivirale. Finalement, les virus ont développé une batterie de contre-défenses qui neutralisent les acteurs de l’immunité innée. Nous ne connaissons encore qu’une toute petite partie de celles-ci et la façon dont elles agissent sur leur cible cellulaire.

Pour des raisons évidentes, la caractérisation des interactions virus-hôtes a surtout été menée chez des virus pathogènes pour l’homme ou les mammifères. Ces interactions ne sont donc quasiment pas étudiées pour la plupart des espèces virales. Il en va ainsi des virus géants à ADN dont on ne connaît toujours pas la fonction d’environ 90 % des gènes et qui constituent donc un réservoir de nouvelles fonctions à explorer. De même, elles commencent seulement à être explorées chez les bactériophages. L’identification de protéines phagiques interférant avec la bactérie pourrait permettre la mise au point de nouveaux antibiotiques ou au moins le développement de nouvelles stratégies antibactériennes.

La biologie structurale des virus a explosé ces dernières années. Elle a bien sur bénéficié des avancées de la cryo-ME. La résolution des structures a beaucoup exploité les propriétés de symétrie des particules virales ou des sous-assemblages formés par leurs composants. Plus récemment, les techniques d’affinement focalisées ont permis de résoudre la structure des éléments ne suivant pas la symétrie générale de la particule virale. Un des défis reste néanmoins la détermination de l’organisation et de la structure du génome des virus (ARN ou ADN) à l’intérieur des particules virales. Un autre est la détermination de la structure des capsides de virus géants dont la taille, trop importante, n’autorise pas l’utilisation de la microscopie électronique. Le développement de nouveaux microscopes électroniques à très haute tension (de l’ordre du million de volts) ou du XFEL pourrait combler cette lacune.

Un autre défi du domaine est celui de la caractérisation structurale et fonctionnelle des complexes impliqués dans la réplication virale. Ces complexes constitués de protéines multidomaines restent difficiles à exprimer et adoptent un grand nombre de conformations. Cette hétérogénéité conformationnelle ne facilite ni leur cristallisation, ni leur étude par cryo-ME. Par ailleurs, ils s’associent aux acides nucléiques ainsi qu’à de nombreuses protéines cellulaires. Même si des résultats remarquables ont été obtenus sur le complexe formé par la polymérase du virus de la grippe (dont la structure a été obtenue par des équipes travaillant en France), sur la polymérase d’un rhabdovirus (dont une structure a été déterminée par cryo-ME) ou bien encore sur la transcriptase inverse et l’intégrase du VIH, nous n’avons à l’heure actuelle qu’une compréhension limitée de la dynamique de ces complexes et de la façon dont ils fonctionnent en présence d’acides nucléiques. Ces complexes, dont les mammifères ne possèdent pas d’équivalent, constituent évidemment des cibles de choix pour des antiviraux.

VIII. Biologie intégrative

A. De la biologie structurale à la biologie structurale intégrative

Le nouveau défi de la biologie structurale est de déterminer l’organisation des complexes macromoléculaire dans leur environnement naturel. La tomographie, les développements de la spectrométrie de masse, les microscopies optiques à super résolution et le CLEM (Correlative Light Electron Microscopy, combinant microscopie de fluorescence super résolue ou non et microscopie électronique) sont les techniques de choix qui doivent permettre d’avancer dans cette direction.

Il faudra aussi progresser dans notre capacité à caractériser la dynamique de ces complexes dans la cellule. Les techniques d’incorporation d’acides aminés non naturels dans les protéines ou de bases modifiées dans l’ADN, qui permettent le greffage covalent de sondes chimiques par chimie click et ainsi d’accéder aux paramètres structuraux et dynamiques des macromolécules, vont devenir incontournables. Par exemple, le greffage de fluorophores ouvre la possibilité de caractériser la dynamique de molécules uniques par smFRET ou de populations par spectroscopie de corrélation de fluorescence (qui donne accès à la concentration et la diffusion locales des complexes considérés) à la fois in vitro et in vivo. Le greffage de sondes radicalaires permet quant à lui d’envisager des études par résonance paramagnétique électronique in situ. La RMN cellulaire n’est pas en reste et il ne fait guère de doutes que de nouveaux développements dans ce domaine sont à attendre dans les prochaines années.

L’ensemble de ces techniques devrait permettre de comprendre le fonctionnement d’une protéine au sein de son réseau d’interaction, dans le contexte cellulaire et de façon résolue dans le temps.

B. Hétérogénéité cellulaire

La vision dynamique du fonctionnement des systèmes biologiques a amené à repenser l’hétérogénéité cellulaire comme un phénomène stochastique présentant un avantage adaptatif évident. La biologie intégrative doit donc maintenant se focaliser sur la cellule unique, dans les aspects omiques notamment. Ce point est déjà partiellement acquis pour les analyses transcriptomiques et génomiques, mais reste encore difficile pour la protéomique et l’analyse métabolique.

De nouvelles questions apparaissent concernant la façon dont cette hétérogénéité est exploitée au niveau de la population par exemple dans des phénomènes de spécialisation/différenciation en son sein. Par ailleurs, de nombreuses expériences suggèrent que des mécanismes permettant de tamponner ou filtrer cette hétérogénéité ont été développés. Ceux-ci restent à découvrir.

La miniaturisation et la microfluidique sont évidemment les techniques de pointe pour résoudre ces questions, non seulement parce qu’elles permettent l’analyse de cellules individuelles mais aussi à cause de leurs grandes capacités de débit analytique. L’objectif de la vision intégrative est de passer progressivement de l’analyse d’un système biologique moyen (population) à la reconstruction d’un système par la somme de ses éléments (cellules). Ceci donnera une vision plus exacte du fonctionnement collectif et pourra notamment permettre de comprendre le rôle de l’hétérogénéité cellulaire dans l’émergence de propriétés au niveau populationnel.

En parallèle, il faudra construire des modèles des réseaux cellulaires, génétiques et métaboliques plus réalistes intégrant la vision nouvelle du fonctionnement de la cellule (cf. V, VI et VII.A). Ces modèles devront rendre compte des hétérogénéités populationnelles et des bifurcations que celles-ci sont susceptibles d’engendrer dans les phénotypes cellulaires. Ceci ne sera pas possible sans une véritable collaboration entre informaticiens, mathématiciens, physiciens et biologistes.

C. De nouveaux besoins

Le traitement des données omiques est déjà un enjeu crucial au sein de la communauté scientifique La biologie des systèmes a un besoin encore plus grand d’interface avec la bioinformatique, non seulement en termes de stockage d’information, mais aussi en termes de traitement de données (développements statistiques adaptés ou nouveaux modèles mathématiques). De grands volumes de stockage et de grandes puissances de calcul vont être nécessaires. Il conviendra de mener une réflexion sur le format des données qui, pour des raisons évidentes de partage au sein de la communauté scientifique, doit être pensé pour qu’elles puissent être exploitées de façon pérenne, utilisables par différents logiciels et échangeables entre communautés scientifiques. L’apport de l’intelligence artificielle et du machine learning sera déterminant dans l’analyse des énormes volumes de données expérimentales.

En conclusion, la biologie intégrative a besoin d’interface avec toutes les autres disciplines présentes au CNRS. Il y a aussi un besoin criant d’étudiants avec une formation dominante en biologie et une culture solide, allant au-delà du vernis, en modélisation, en mathématiques, en chimie et en physique.

IX. Biologie de synthèse

La biologie de synthèse vise à concevoir et construire des objets biologiques ayant des propriétés déterminées par son concepteur. Elle signe donc l’entrée de la biologie dans un monde classiquement réservé à l’ingénierie et dans lequel la construction d’objets présente un caractère prédictible. La biologie synthétique est par ailleurs complètement intriquée avec la biologie intégrative (biologie des systèmes), qui lui fournit les outils et concepts permettant de comprendre le fonctionnement d’un système biologique dans son ensemble.

La maîtrise de la construction de systèmes biologiques synthétiques a eu des répercussions immédiates dans le domaine des biotechnologies, plus particulièrement en ingénierie métabolique, avec la reconstruction de voies entièrement (bio)synthétiques produisant des molécules naturelles difficilement accessibles par la chimie de synthèse ou par extraction (hydrocortisone, acide artémisinique, etc.). Cette forte intégration avec le domaine applicatif a intimement lié la biologie synthétique à la biotechnologie et la bioéconomie. Pour autant la biologie synthétique ne doit pas être confinée au seul domaine des biotechnologies, car, en créant des outils capables de modifier/perturber les systèmes vivants, elle a soulevé des questions extrêmement fondamentales sur les capacités adaptatives et évolutives du vivant. Ces outils font encore une fois la part belle à l’interdisciplinarité.

Plusieurs champs de la biologie synthétique rentrent dans les axes thématiques de la section 20, notamment l’ingénierie des biomolécules et l’ingénierie métabolique. Ils posent des questions essentielles sur les relations entre structure, dynamique et activités des macromolécules et leurs fonctions au sein de réseaux métaboliques ou cellulaires complexes (cf. V). La fonctionnalité de ces systèmes peut être analysée in vitro (cell-free systems) et/ou in vivo (souches recombinantes) grâce aux techniques de fonctionnalisation chimique spécifique.

Des développements spectaculaires ont également vu le jour en ingénierie rationnelle des molécules, notamment la conception de nouvelles protéines dont le repliement et la fonction sont préalablement déterminés mais aussi de sites catalytiques originaux capables de réaliser des réactions enzymatiques non présentes dans l’arsenal des enzymes naturelles.

L’utilisation d’acides aminés ou de nucléotides non naturels issus de la chimie ouvre aussi la voie à la construction de fonctions nouvelles dans le vivant : sites actifs ou de reconnaissance modifiés par des acides aminés non naturels, acides nucléiques catalytiques, etc. Ces approches nouvelles se développeront grâce aux avancées techniques dans d’autres domaines comme la chimie (synthèse de fonctions nouvelles, chimie au sein de mélanges complexes), la physique (microscopie, lasers, appareillage) et l’informatique (modélisation moléculaire, intégration des données).

La reconstruction métabolique est également un outil précieux de compréhension du métabolisme cellulaire. Même si son objectif final est souvent lié à la production de molécules, l’introduction de voies métaboliques synthétiques dans un organisme permet de définir les étapes limitantes dans la formation des précurseurs mais également dans la voie synthétique. L’analyse par les techniques omiques des perturbations métaboliques permet de mettre en évidence les différents types de contrôle exercés par la cellule, depuis la transcription jusqu’aux flux métaboliques et les interactions entre les différents réseaux métaboliques. L’ingénierie métabolique pose également de nombreuses questions fondamentales liant la biologie cellulaire et l’enzymologie au métabolisme. Ici encore, le souci d’amélioration de la production a conduit les chercheurs à travailler la compartimentation et la localisation des enzymes, voire même leur rapprochement physique par des techniques génétique (fusion de gènes, expression de domaines de recrutement). L’apport de la biologie structurale dans ce domaine (contrôle de l’architecture d’édifices macromoléculaires complexes, reconnaissance des interactions entre macromolécules, design et ingénierie moléculaire) est indéniable et restera déterminant dans les prochaines années.

Enfin, la biologie synthétique remet la compréhension des mécanismes enzymatiques au cœur du métabolisme. L’enzymologie bénéficiera des approches en biologie synthétique couplées à la biologie des systèmes, pour notamment revoir ou découvrir, avec une grille de lecture ciblée sur l’enzyme dans son contexte cellulaire, les mécanismes enzymatiques. Là encore, ces domaines de recherche devront trouver des chercheurs aux compétences multiples ou se construire via la collaboration entre biochimistes, biologistes structuraux, enzymologistes et biologistes cellulaires. Les avancées technologiques de la biologie des systèmes, poussant progressivement vers la miniaturisation et le haut-débit, devraient logiquement permettre d’intégrer ces données de fonctionnement enzymatique à l’échelle cellulaire.

La France, malgré un léger retard sur les autres pays européens dans la mise en place de programmes spécifiques pour la biologie synthétique, a su rebondir en créant, dès 2014, un GDR CNRS dédié à la biologie de synthèse et des systèmes. Il faut noter que de plus en plus de candidats se réclamant de cette discipline se présentent au concours CRCN en section 20. Ces candidatures dont le nombre augmente chaque année révèlent une appropriation des outils et concepts de la biologie synthétique dans le but de déchiffrer les mécanismes cellulaires les plus complexes. Le risque de voir la biologie synthétique comme uniquement destinée à promouvoir des aspects translationnels vers les biotechnologies (ce qu’elle fait également bien sûr) est donc maintenant écarté. Au même titre que toutes les disciplines scientifiques, la biologie synthétique trouve parfaitement son équilibre entre une recherche purement académique et un transfert technologique pour lequel elle a déjà amplement démontré son utilité.

Conclusion

L’évolution des grands questionnements sur le fonctionnement du vivant, le développement de méthodologies permettant de zoomer d’une cellule ou d’un système métabolique jusqu’à l’échelle atomique jettent les bases d’une nouvelle biologie, plus intégrative, interdisciplinaire et s’ouvrant entre autres à la physique, aux mathématiques et à la théorie des systèmes. Les chercheurs et les laboratoires de la section 20 sont déjà nombreux à se positionner sur ce front. Néanmoins, cette nouvelle frontière de la recherche en biologie demande des moyens humains et financiers plus importants que par le passé.

La France, qui était jusque très récemment bien positionnée dans le domaine de la biologie structurale, est en train de perdre son rang. On l’a mentionné : l’investissement dans les cryo-microscopes de dernière génération équipés de caméras à détection directe a été insuffisant. Un plan national vise à rattraper ce retard. C’est une excellente chose, mais il ne faudrait pas qu’il s’exerce au détriment des autres équipements en imagerie (super-résolution, molécule unique), en biophysique ou en spectrométrie de masse. On soulignera ici que de nombreux pays européens, en particulier l’Allemagne et l’Angleterre, et la Chine investissent massivement dans toutes ces nouvelles technologies.

La section 20 couvre un vaste panel de thématiques et d’approches expérimentales. Le nombre de postes de chercheurs au concours est néanmoins faible. Il y a un risque non négligeable que certaines disciplines, anciennement bien implantées dans le paysage de la biologie française, voient leur effectif passer sous la masse critique. Pourtant, à côté des recrutements indispensables dans les domaines en plein essor que sont la cryomicroscopie et ses développements, la biologie intégrative ou la biologie de synthèse, il faut aussi maintenir des compétences dans des domaines moins à la mode mais dont la pertinence scientifique est intacte. Ainsi, l’expertise du biochimiste et de l’enzymologiste qui vont produire et caractériser des échantillons très homogènes, piégés à différents stades des processus biologiques, reste indispensable aux études structurales mais n’est plus suffisamment répandue. Trop souvent d’ailleurs, ce travail, ingrat et délicat, n’est pas reconnu.

Nous l’avons déjà dit, la biologie des systèmes, intégrative et synthétique se situe aux interfaces de plusieurs disciplines. Trop souvent, les étudiants issus d’un cursus purement biologique ont une culture insuffisante en mathématiques, en chimie et en physique qui ne leur permet pas d’aborder efficacement cette nouvelle biologie. Ceci nous invite à repenser l’enseignement mais aussi à motiver les meilleurs étudiants, les plus aptes à appréhender la complexité et la richesse de la biologie intégrative, afin qu’ils s’orientent vers la recherche plutôt que dans des formations permettant d’accéder à des métiers plus lucratifs. La réévaluation du montant des bourses de thèse et du salaire du chercheur ainsi que de meilleures perspectives d’emploi pour les thésards (que ce soit dans le secteur privé ou dans la recherche académique) peuvent y contribuer.

Les approches haut débit, si riches en enseignements, ont aussi un coût non négligeable. Elles peuvent devenir difficiles d’accès à certaines équipes vu la faiblesse du financement récurrent et du taux de succès aux appels à projets de l’ANR (qui reste le seul guichet pour de nombreuses équipes dépendant de la section 20 impliquées dans une recherche fondamentale sans application médicale directe). Les périodes d’une voire quelques années sans réel financement ne sont pas rares, y compris pour des équipes leaders dans leur domaine, avec comme conséquence une perte parfois définitive de leur compétitivité au niveau international.

Face aux acteurs socio-économiques et politiques, nous devons donc réaffirmer l’importance de la recherche fondamentale. Il faut sans relâche expliquer d’une part que la recherche fondamentale d’aujourd’hui est nécessaire aux applications de demain et qu’elle seule est le garant de l’indépendance technologique de notre pays et, d’autre part, que dans le contexte actuel de réchauffement climatique et de crise environnementale, limiter les enjeux fondamentaux de la biologie à ceux de la santé humaine serait une grave erreur.

ANNEXE 1

CLEM : Correlative light electron microscopy
Cryo-ME : Cryo-microscopie électronique
CTE : Constitutive transport element
IDP : Intrinsically disordered protein
IRES : Internal ribosomal entry site
miARN : Micro-ARN
SAXS : Small angle X-ray scattering
smFRET : Single molecule fuorescence resonance energy transfer
XFEL : X-ray free electron laser