CID 51 Modélisation, et analyse des données et des systèmes biologiques : approches informatiques, mathématiques et physique

Introduction

La biologie est souvent présentée comme une discipline expérimentale, par opposition à d'autres disciplines disposant de solides fondations mathématiques comme la physique. Pourtant la modélisation a une longue tradition en biologie, comme l'attestent le modèle de la structure de l'ADN, les modèles d'activité électrophysiologique du neurone, ou le modèle d'allostérie en biochimie du métabolisme et de la signalisation. De même, l'anatomie comparée, le dogme central de la biologie moléculaire ou les formalisations mathématiques de la théorie de l'évolution ont eu un rôle majeur dans la structuration des connaissances en biologie. Plus récemment, la modélisation statistique du génome a contribué au succès des logiciels de bioinformatique. Malgré ces quelques exemples paradigmatiques, de par la complexité du sujet (le « vivant »), les modèles développés en biologie sont souvent restés limités à des schémas graphiques, éventuellement complétés par l'analyse statistique de données expérimentales. De fait, la biologie a été un des principaux moteurs du développement de la statistique. Réciproquement, les modèles biologiques, bien qu'ils soient longtemps restés assez élémentaires, utilisaient déjà des concepts et/ou des outils dérivés d'autres disciplines.

Depuis une vingtaine d'années, les représentations schématiques et phénoménologiques classiquement utilisées en biologie ont fait place à des développements beaucoup plus poussés impliquant les mathématiques, l'informatique, la physique ou la chimie, donnant ainsi naissance à une nouvelle communauté de recherche, positionnée à l'interface entre les sciences du vivant et une ou plusieurs de ces disciplines. Le champ thématique de la CID51 est justement situé à cette interface : les membres de la CID51 sont des chercheurs revendiquant une certaine interdisciplinarité et qui cherchent à apporter des réponses à des problèmes importants de biologie en développant des outils ou en appliquant des concepts issus d'autres disciplines.

Certains domaines de la biologie, comme la génétique des populations ou la biologie structurale, ont depuis toujours eu recours à des outils mathématiques ou informatiques. D'autres n'en ont eu la nécessité que depuis quelques années en raison du développement de méthodes d'acquisition de données à grande échelle. Comme le volume des données disponibles en biologie augmente rapidement, la bioinformatique et l'analyse des données deviennent essentielles pour extraire l'information pertinente des résultats expérimentaux.

Parallèlement, la modélisation s'est imposée comme un fantastique outil pour déduire logiquement des conclusions à partir d'un ensemble d'hypothèses. Ainsi les modèles peuvent servir à proposer des hypothèses – ou au contraire à les invalider, à prédire la réaction d'un système biologique à une perturbation ou à structurer la connaissance pour comprendre l'importance relative d'un ensemble de variables dans un processus biologique. La modélisation permet ainsi une meilleure compréhension du vivant mais aussi une réponse beaucoup plus rapide à des enjeux sociétaux majeurs tels que l'épidémiologie des pathogènes émergents, la découverte de nouvelles approches pour le diagnostic et le traitement des maladies humaines ou le développement de la biologie de synthèse à visée industrielle.

Ce chapitre est divisé en trois parties. Les premières sections (I à V) présentent les domaines de la biologie qui ont un recours intensif aux techniques computationnelles et à la modélisation. Ensuite (sections VI à VIII), nous présentons spécifiquement les interfaces de la biologie avec la physique, les mathématiques et les sciences de l'information. Enfin, dans les sections IX à XI, nous concluons avec une description de la communauté, de ses atouts mais aussi des principales difficultés qui freinent le développement de l'interdisciplinarité et de la modélisation en biologie.