CID 51 Modélisation, et analyse des données et des systèmes biologiques : approches informatiques, mathématiques et physique

IX. Logiciels et calcul

La production logicielle directement issue de la communauté scientifique joue un rôle de tout premier plan dans la modélisation et l'analyse des systèmes biologiques. Elle assure une partie de la continuité entre les deux versants que sont la recherche fondamentale en biologie et les développements méthodologiques et numériques. Le succès d'un logiciel est fonction de l'avancée méthodologique qu'il porte, mais aussi de son ergonomie, de sa disponibilité et de sa capacité à suivre l'avancée de son domaine d'application. Pour les développeurs de méthodes, le fait que leurs approches puissent être utilisées à grande échelle constitue un test grandeur nature pouvant mettre à jour forces et faiblesses. Ainsi, la recherche en biologie et les développements méthodologiques s'enrichissent et se fertilisent mutuellement via les logiciels qui agissent comme des vecteurs de communication.

Au sein des unités CNRS, le développement de logiciels pour analyser et simuler des données biologiques compte des succès comme ClustalX, GenePop ou PhyML qui ont atteint la dizaine de milliers de citations et d'autres comme SeaView/Phylo_win, T-Coffee, EEGLAB ou APE qui sont des références dans leurs domaines. De façon intéressante, la plupart des ces logiciels concernent les domaines de l'analyse de séquences et de la biologie évolutive. La communauté française dans d'autres domaines de la bioinformatique a produit des avancées méthodologiques importantes mais qui n'ont peut-être pas été suffisamment exploitées en partie en raison des difficultés rencontrées par les chercheurs impliqués dans un développement logiciel. Nous proposons ici des pistes pour développer et rationaliser le développement de logiciels scientifiques et la capacité de calcul.

1. Développer des logiciels libres. Le logiciel libre constitue une forme fructueuse de travail collaboratif qui favorise la reproductibilité des recherches et permet d'exposer les erreurs potentielles.

2. Promouvoir l'accès de la biologie aux infrastructures informatiques. Vu les volumes de données générés en biologie ainsi que le besoin croissant en puissance de calcul, il est de moins en moins raisonnable de rester sur un modèle de stockage et de calcul exclusivement local.

3. Développer et maintenir les bases de données. En effet, elles conditionnent la qualité des analyses bioinformatiques.

4. Évaluer plus favorablement les activités liées au logiciel. Si le développement logiciel ne relève pas de la science à proprement parler, il est au cœur de l'interdisciplinarité car il joue un rôle clé dans la diffusion des méthodes parmi les biologistes.

5. Fournir des moyens techniques mais aussi humains pour maintenir les logiciels.