CID 51 Modélisation, et analyse des données et des systèmes biologiques : approches informatiques, mathématiques et physique

VIII. Interface sciences de l'information

L'interface entre sciences de l'information et sciences du vivant s'est révélée, depuis déjà quelques décennies, un exemple particulièrement marquant de fertilisation croisée réussie. D'une part, des algorithmes efficaces ont accompagné la biologie dans l'ère du haut débit. D'autre part, les organismes biologiques évoluent par sélection naturelle, un processus d'optimisation, dont la mémoire est en partie gravée dans les génomes, eux-mêmes un exemple d'information digitale. En conséquence, l'interface biologie/sciences de l'information a fait émerger de nouveaux modèles de calculs bio-inspirés. Il en résulte un dialogue souvent fructueux, dans lequel le rôle des bioinformaticiens ne se limite pas à la proposition d'une solution technique efficace, mais où ils participent à la conception d'expériences de validation, voire au choix des questions biologiques.

Les contributions de l'informatique au niveau de l'algorithmique sont bien représentées au niveau national en optimisation combinatoire, par exemple en phylogénie, en génomique et en biologie structurale. Dans ces domaines, le traitement de données volumineuses et de qualité hétérogène nécessite des structures de données compressées et des algorithmes efficaces et résilients aux erreurs. Les problématiques biologiques nécessitent souvent des approches hybrides, intégrant simultanément plusieurs types de données dans un schéma algorithmique joint, pouvant mêler inférence de modèle et optimisation. L'approche réductionniste traditionnellement utilisée pour la conception des algorithmes est alors mise à mal. Les méthodes issues de la recherche opérationnelle pourraient apporter des solutions à ces problèmes.

Les développements récents en biologie confirment la nécessité de développer de nouvelles méthodes et outils en sciences de l'information, afin de faire face à l'explosion des volumes de données issues de la pratique quotidienne des sciences du vivant. Cela concerne l'organisation des données sur des ontologies spécifiques, ainsi que des workflows permettant une rationalisation et une modularisation des méthodologies d'analyse. Des contributions méthodologiques importantes sont aussi attendues dans le domaine de l'apprentissage et de l'extraction de connaissances. Elles concernent entre autre la classification automatique, domaine où les développements informatiques et bioinformatiques se nourrissent mutuellement car les études de cas biologiques sont désormais intégrées aux procédures d'évaluations de nouvelles contributions disciplinaires. Outre les problèmes classiques, mais toujours d'actualité, d'apprentissage et inférence dans des espaces de très grande dimension, la confrontation à des volumes de données distribuées, et produits en continu, constitue un défi majeur. Ces problématiques sont actuellement au cœur de nombreux travaux et concepts dans les communautés de l'automatique, du traitement du signal et des images, de l'apprentissage artificiel, et devraient bientôt alimenter la communauté bioinformatique.

Enfin, parallèlement à ces aspects liés à l'analyse de données haut-débit et permettant de développer des modèles à partir des données, l'interface entre informatique et sciences du vivant présente une facette de modélisation « a priori » dans laquelle ce sont les processus qui sont modélisés informatiquement au moyen de différentes approches telles que les automates cellulaires, les réseaux de Petri, les modèles individu-centrés, ou les langages formels. L'objectif de la modélisation n'est plus ici d'extraire du sens à partir d'un ensemble de données mais d'inférer le régime de fonctionnement le plus probable d'un système biologique ou de révéler des liens de causalité qu'il serait impossible d'identifier spontanément du fait de la complexité du système ou de ses non-linéarités. Ces approches se développent très fortement dans le courant des sciences computationnelles en lien avec le développement de la biologie des systèmes (voir section III). Elles permettent de développer un cercle vertueux entre modélisation et expérimentation en proposant, par la modélisation, des hypothèses qui peuvent ensuite être mises à l'épreuve expérimentalement. Cependant, pour rester vertueux, ce cercle doit impérativement intégrer le plus étroitement possible les deux approches ce qui ne peut se faire que dans des groupes fortement interdisciplinaires. Cette nécessité contraste fortement avec la volonté de créer de grosses entités de recherche regroupant tous les chercheurs d'une même discipline dans une logique de site (voir section XI).