CID 51 Modélisation, et analyse des données et des systèmes biologiques : approches informatiques, mathématiques et physique

I. Génomique

La génomique constitue une rupture importante avec la génétique classique parce qu'elle permet d'étudier l'ensemble de l'information du génome dans un contexte intégratif. Depuis quelques années, de nouvelles technologies de séquençage ont ouvert la génomique à pratiquement tous les domaines de la biologie. Ainsi, le re-séquençage de génomes permet le développement de la génomique associative (recherche d'allèles associés à un phénotype) et des approches phylogénomiques en épidémiologie moléculaire. De nouvelles techniques permettent l'étude des interactions protéine-ADN, de l'expression des gènes, ou des variants fonctionnels. La génomique s'impose aussi en écologie où les approches de métagénomique révolutionnent l'écologie microbienne et le séquençage a un énorme impact sur la compréhension de la génétique et de l'histoire des populations naturelles. Les grands projets de génomique fournissent également des données pouvant être intégrées à différents niveaux dans des approches de biologie structurale. Les techniques de séquençage à haut débit génèrent des données qui permettent l'étude à basse résolution de la structure des chromosomes et l'analyse de l'impact de mutations sur la structure et fonction des protéines. Enfin, d'autres techniques permettent d'étudier les interactions ARN/protéines, ou encore de caractériser la structure secondaire des ARN. Toutes ces applications ont connu des développements importants durant les quatre dernières années et ont contribué à la croissance exponentielle et la diversification de l'information génomique contenue dans les bases de données. La France s'est initialement bien positionnée dans le domaine de la génomique. Même si elle a pris du retard dans les infrastructures de séquençage et dans la formation et le recrutement de bioinformaticiens, la France reste le quatrième contributeur mondial aux revues les plus citées en génomique.

La dissémination rapide de nouvelles technologies de séquençage plus performantes, moins chères, permettant des lectures plus longues et/ou à partir d'échantillons plus petits, pose des problèmes majeurs. Certaines de ces nouvelles méthodes permettent le séquençage de cellules uniques, mais produisent des séquences de faible qualité qui posent des défis algorithmiques pour l'assemblage et l'analyse. Elles apportent cependant un avantage décisif en permettant d'étudier la variabilité génomique au sein d'une population. L'individualisation de l'étude des génomes favorisera l'utilisation de techniques de génétique des populations et de physique statistique pour étudier, dans des populations hétérogènes, l'effet conjoint de l'expression génétique et de la dynamique des génomes sur le phénotype.

Les progrès de la génomique ont contribué à l'essor de nouvelles disciplines comme la génomique associative. Celle-ci utilise des approches statistiques pour identifier les régions du génome expliquant la variation de traits phénotypiques. Elle est donc d'un intérêt médical majeur. Cependant, en dépit du nombre impressionnant d'études conduites dans les dernières années, le pouvoir explicatif et prédictif des variants détectés est souvent resté assez faible. Les efforts récents dans ce domaine concernent donc l'intégration de données de différentes natures : génomique, épigénomique, structurales et fonctionnelles, avec comme objectif principal de mieux comprendre le déterminisme biologique des pathologies. Ces nouveaux défis de la génétique associative sont de beaux exemples de recherches interdisciplinaires puisqu'ils font appel à des méthodes de statistiques de pointe ainsi qu'à des technologies post-génomiques nouvelles. De plus, ils répondent à des enjeux sociétaux importants en santé, typiquement en cancérologie, mais aussi sur les maladies neurodégénératives ou les maladies rares.

Dans un avenir proche, la diminution rapide du coût de séquençage et le développement d'appareils portables rendront routinière l'utilisation de la génomique en clinique, dans l'industrie et en ingénierie de l'environnement. Cela permettra le typage et la caractérisation rapide de bactéries résistantes aux antibiotiques, des avancés en bioremédiation ou encore la caractérisation et la classification rapide de tissus tumoraux ou de maladies génétiques. Pour exploiter ces nouvelles possibilités, il faudra être capable de gérer l'information qui sera produite de façon massive et délocalisée, de la mettre à jour et de l'intégrer. Alors qu'aujourd'hui les processus d'analyse automatique souffrent du manque d'harmonisation des banques de données et du manque d'outils suffisamment efficaces, il faudra définir des méthodologies d'analyse qui soient robustes et standardisées de façon à rendre les analyses moins dépendantes de l'expertise de l'utilisateur. Enfin, il faudra favoriser les interactions entre les bio-analystes, les utilisateurs de données (comme les cliniciens) et les laboratoires de recherche en bioinformatique. Le succès de ces démarches dépendra à la fois du développement de méthodes et d'infrastructures, mais aussi des efforts de recrutement, de communication et de formation. Pour que les avancées rapides de la génomique puissent être rapidement mises au service de la communauté, le lien entre les plate-formes de bioinformatique et la recherche méthodologique en biologie doit donc rester très étroit.

Les données de génomique ont vocation à être croisées avec des données fonctionnelles, d'épigénomique ou de criblage phénotypique pour augmenter la puissance des analyses et faciliter les études de biologie des systèmes. Il faudra donc mieux intégrer les milliers de banques de données en biologie contenant des informations à des niveaux très hétérogènes de détail, quantité et qualité. Techniquement, il faudra développer des outils permettant l'inter-opérabilité des différentes banques de données et assurer leur maintenance. Politiquement, il faudra valoriser le travail de recherche intégrative et la mise à disposition de données et d'outils.