CID 51 Modélisation, et analyse des données et des systèmes biologiques : approches informatiques, mathématiques et physique

VII. Interface mathématiques

La modélisation mathématique en sciences du vivant doit répondre à des questions spécifiques pour rendre possible une compréhension quantitative des phénomènes mais aussi permettre l'émergence de concepts plus généraux. Les études mathématiques sont souvent effectuées sur des systèmes simplifiés qui font ressortir les concepts fondamentaux tandis que les approches par simulation peuvent inclure des aspects plus détaillés et spécifiques de chaque système biologique. Le très bon niveau de l'école mathématique française a permis l'émergence d'un grand nombre de petites équipes de haut niveau internationalement reconnues à l'interface entre mathématiques et sciences du vivant. Néanmoins, ce succès repose trop souvent sur des initiatives individuelles de chercheurs n'ayant pas à l'origine été formés pour cela. La création d'un centre de recherche ou de rencontre dédié serait extrêmement utile pour la formation avancée et la recherche.

Traditionnellement la biologie quantitative décrit surtout les états stationnaires – ceux-ci étant les plus facilement observables et quantifiables expérimentalement. Grâce aux évolutions récentes des techniques d'acquisition et de traitement de données, il devient possible d'observer en détail la dynamique de nombreux systèmes biologiques. Par exemple, les nouvelles techniques d'acquisition d'images en microscopie et de marquage de protéines permettent de faire des films avec une grande résolution spatiale et temporelle au niveau d'une cellule, d'un tissu/organe ou même d'une région du corps. Ceci ouvre la possibilité d'élaborer et paramétrer des modèles dynamiques réalistes, qui sont beaucoup plus riches du point de vue mathématique.

La construction de modèles mathématiques in silico plus réalistes prenant en compte des réseaux de régulation et la physique (en particulier la mécanique) des systèmes biologiques répond à une demande forte de la part des sciences du vivant. De nombreuses équipes mathématiques y travaillent actuellement en France (en étroite collaboration avec des biophysiciens) sur des thématiques très diverses parmi lesquelles l'hémodynamique, la croissance de tissus et de tumeurs, la dynamique de populations et les neurosciences.

La mise en place de modèles hybrides permettant de marier des descriptions discrètes au niveau des cellules ou des individus avec des modèles continus au niveau de la population ou du milieu environnant suscite un effort important de la communauté. Ce type d'approche permet de profiter simultanément des avantages des modèles discrets ou à base d'agents pour une description détaillée d'une petite région ou groupe de cellules, avec le moindre coût computationnel des modèles continus qui permettent d'avoir une description réaliste sur des échelles plus grandes. Les mathématiciens utilisent déjà un grand nombre d'outils de changement d'échelle qui permettent de faire le lien entre des comportements microscopiques stochastiques ou déterministes et des modèles continus au niveau macroscopique comme les méthodes d'homogénéisation, les théorèmes limites des processus stochastiques, les modèles de champ moyen et cinétiques pour des systèmes de particules en interaction. L'étude des systèmes biologiques incitera leur développement et l'émergence de nouvelles approches plus adaptées à la problématique du vivant où les systèmes ont souvent une réponse complexe.

Un autre domaine en grand essor en ce moment et qui devra s'intensifier dans le futur, concerne les applications de la théorie du contrôle dans le contexte du vivant. Elles ont un intérêt large, mais sont particulièrement pertinentes dans le contexte médical où il est question d'amener le patient vers un état souhaité – la guérison – de façon optimale. On cherchera par exemple à minimiser la durée ou les effets secondaires des traitements qui sont mesurés par la variable de contrôle. Des travaux récents sur l'optimisation de doses de médicaments ou la combinaison de différents traitements pour le cancer se basent sur des modèles très simplifiés, mais sont prometteurs et devront pouvoir devenir plus réalistes dans un futur proche.

Une fois les modèles validés, leur étude et la simulation in silico permettent de guider des choix biologiques et de réduire le nombre d'expériences à réaliser. Dans l'ère des grands jeux de données, en parallèle avec des avancées informatiques sur le stockage de grandes masses de données, la modélisation mathématique aura un rôle essentiel dans la réduction de la quantité d'information à stocker en la limitant à un petit nombre de paramètres significatifs qui peuvent êtres estimés par différentes approches.

Les nouvelles capacités de recueil et de stockage des données provoque un changement de paradigme en nécessitant de nouvelles compétences pour les statisticiens comme l'analyse numérique, la gestion informatique de grandes bases de données ou l'utilisation de méthodes séquentielles. Il s'agit par exemple de développer des méthodes permettant d'analyser des données structurées en réseaux, de classer des données en grande dimension ou de traiter des données hétérogènes. Nombre de données biologiques contiennent plus de variables que d'individus et les méthodes d'estimation ont été adaptées en utilisant des techniques dites de régularisation qui permettent de pénaliser la complexité des modèles. Le transfert de ces techniques issues du machine learning à la biologie fait l'objet d'un effort de recherche important notamment en bioinformatique. Les approches bayésiennes ont elles aussi connu d'importants développements, basées en partie sur des simulations stochastiques de type Monte Carlo (algorithmes MCMC, ABC).

Ce qui est remarquable c'est que non seulement la modélisation et l'analyse de données biologiques bénéficient des avancées méthodologiques apportées par les mathématiques mais la biologie a aussi ouvert de nouvelles perspectives de recherche dans un grand nombre de domaines des mathématiques.