FI-10/00

Bioinformatique?

Victor.Jongeneel@isb-sib.ch, Institut suisse de bioinformatique, Epalinges

En suivant les grands mouvements qui agitent depuis quelque temps les hautes écoles lémaniques, on a entendu de façon répétée un mot visiblement à la mode, mais dont une définition est rarement donnée: la bioinformatique. Pour une fois, le mot n'est pas d'origine anglo-saxonne, ayant en fait passé du français à l'anglais (bioinformatics). Mon propos ici est d'essayer d'éclaircir ce que l'on peut entendre par bioinformatique, et d'illustrer quelques-uns des problèmes auxquels s'attaque cette discipline.

Une définition?

De façon très générale, on peut inclure dans une définition de la bioinformatique toutes les applications de l'informatique à la biologie. Celles-ci sont extrêmement nombreuses, et incluent des domaines aussi différents que l'étude in silico de la connectique des neurones, le traitement quantitatif et qualitatif d'images microscopiques, la gestion des échantillons et des données expérimentales dans les grands laboratoires industriels, ou la modélisation de l'évolution de populations animales dans des conditions écologiques spécifiques. Dans tous ces cas, l'informatique apporte des outils indispensables à l'analyse de phénomènes biologiques, à la formulation de nouvelles hypothèses, ou à la gestion de données expérimentales. De plus en plus couramment, les biologistes font appel à l'informatique pour les aider à résoudre des problèmes à tous les niveaux, et créent donc des interfaces multiples entre le monde de la biologie et celui de l'informatique. Typiquement, on voit émerger des projets pluridisciplinaires où collaborent biologistes et informaticiens, et souvent aussi ingénieurs, physiciens, mathématiciens, etc. Cette évolution a créé un besoin de plus en plus important en scientifiques ayant des connaissances approfondies dans les deux domaines, et capables de communiquer avec des professionels des deux bords.

D'autre part, l'émergence de méthodes en biologie capable de générer des quantités très importantes de données sans nécessairement les lier à des hypothèses de travail précises a créé un besoin aigu de traitement et d'interprétation de ces données. Les projets les plus visibles sont ceux qui visent à déterminer la séquence complète des lettres qui composent les génomes de différents êtres vivants, dont bien sûr l'Homme. En complément indispensable de ceux-ci, on trouve les projets visant à cerner la partie du génome exprimée en ARN messager, le transcriptome, et les protéines synthétisées à partir de ces messagers, le protéome. Récemment, on a appris à mesurer simultanément les niveaux d'expression de dizaines de milliers de gènes dans des populations cellulaires différentes sur des puces à ADN, générant une fois de plus des données en quantités massives. Une forme spécifique de bioinformatique, étroitement couplée aux projets de génomique et dérivée d'une discipline plus ancienne connue sous le nom d'analyse de séquences, est donc apparue. C'est celle qui reçoit actuellement le plus d'attention parmi les biologistes, et qui se développe le plus rapidement. C'est dans cette bioinformatique post-génomique que se profile l'Institut suisse de bioinformatique. C'est aussi elle qui fera l'objet du reste de cet article.

L'Institut suisse de bioinformatique

L'ISB est né en 1998 de la volonté de cinq groupes de recherche travaillant dans la région lémanique de collaborer étroitement et de mettre en commun une partie de leurs ressources. L'Institut a été cautionné par les Universités de Genève et Lausanne pour garantir une formation en bioinformatique à leurs étudiants, et pour encadrer doctorants et post-doctorants. L'ISB accueille actuellement des groupes affiliés à l'ISREC, à l'Institut Ludwig de recherches sur le cancer, à l'Université de Genève, aux Hôpitaux universitaires genevois, et à la multinationale pharmaceutique Glaxo-Wellcome. La création d'un groupe à l'UniL est prévue pour 2001. L'ISB reçoit aussi un subside de la Confédération pour assurer des activités de service à la communauté scientifique.

Les groupes lausannois de l'ISB se concentrent sur l'interprétation des données concernant les acides nucléiques, c.à.d. les séquences de génomes et de transcriptomes, ainsi que le traitement des données produites par les puces à ADN. Les groupes genevois se sont spécialisés dans les données associées aux protéines, et sont devenus des leaders mondiaux dans le domaine de la protéomique.

La volonté affichée par la nouvelle Présidence de développer la bioinformatique à l'EPFL s'inscrit parfaitement dans la logique fédérative de l'ISB. Nous nous réjouissons donc de cette nouvelle orientation, et espérons pouvoir bientôt accueillir un ou plusieurs groupes de l'EPFL au sein de l'Institut.

Etude des génomes

Les derniers mois ont vu apparaître une profusion de données nouvelles, nous donnant pour la première fois une idée précise de la structure des génomes d'organismes complexes. On peut citer, en vrac: les séquences complètes de deux chromosomes humains (les Nos 21 et 22, les plus petits des chromosomes), le premier génome d'une plante supérieure (le riz) et le premier génome d'un insecte (la mouche à vinaigre). La séquence d'un brouillon du génome humain a été annoncée en grande fanfare l'été dernier, mais il est encore très incomplet et fragmenté. Les génomes de bactéries et de parasites pathogènes ou écologiquement importants continuent d'affluer, avec leur lot de surprises et de nouvelles découvertes.

Malgré ce que la presse a tendance à dire, la détermination de la séquence d'un génome n'est de loin pas synonyme de décodage. En fait, un immense travail d'interprétation des données ne fait que commencer. Pour donner un exemple simple, il n'y a pas dans une séquence génomique de signaux précis indiquant la localisation des gènes. Celle-ci doit être déduite en utilisant une combinaison d'outils prédictifs encore très imparfaits, de données expérimentales sur le transcriptome, et de comparaisons avec des gènes connus venant d'autres organismes. Encore beaucoup plus complexe est la déduction des signaux de contrôle, des interrupteurs et régulateurs génétiques, dont on sait qu'ils sont encodés dans le génome mais que l'on ne sait pas encore reconnaître de façon fiable, et encore moins analyser globalement. Le génome est certainement le plan directeur permettant à un organisme de se former et de fonctionner, mais nous sommes encore très loin de comprendre comment ceci est mis en oeuvre. Il faudra développer des outils aussi bien expérimentaux qu'informatiques pour réellement décoder les génomes ­ et c'est dans ce sens qu'à mon avis il faut comprendre la génomique.

Un autre niveau d'analyse des génomes est celui du polymorphisme. On sait qu'il y a sur Terre peu d'individus génétiquement identiques, et que des différences suffisamment grandes définissent des espèces incapables de se reproduire entre elles. Les différences génétiques entre individus ne causent pas seulement des différences facilement visibles (physionomie, couleur de peau, etc.), mais aussi des différences physiologiques et métaboliques provoquant des propensions à développer certaines maladies plutôt que d'autres, des sensibilités à certains médicaments, ou des aptitudes et goûts personnels divergents. La découverte des polymorphismes génétiques, et leur association avec des caractéristiques phénotypiques, est dans une grande mesure un problème d'analyse (bio)informatique de données expérimentales complexes; la bioinformatique est aussi indispensable à la formulation d'une stratégie cohérente de découverte de ces polymorphismes.

Etude des transcriptomes

Le transcriptome est la partie du génome transcrite en ARN, et en particulier en ARN messager pouvant encoder des protéines. Les ARN messagers sont les molécules qui serviront de matrice pour la synthèse de ces protéines, et représentent le potentiel de codage du génome. Une caractérisation complète du transcriptome est donc nécessaire pour obtenir un catalogue représentatif de tous les gènes. Les techniques actuelles produisent des petits fragments de séquences d'ARN messager, qu'il s'agit d'attribuer à un gène particulier, puis à réassembler pour produire la séquence complète de l'ARN correspondant. Il faut aussi les placer sur la séquence génomique. Tout ceci est fait in silico, en utilisant des techniques informatiques sophistiquées. Le seul organisme pour lequel une partie substantielle du transcriptome soit actuellement disponible est l'Homme, et même dans ce cas les plus de 2 millions de séquences dans le domaine public ne permettent pas encore une reconstitution complète et fiable du catalogue des gènes humains. L'ISB, en collaboration avec l'Institut Ludwig de recherches sur le cancer de São Paulo (Brésil) et le National Cancer Institute américain, travaille actuellement à une telle reconstitution, en utilisant le brouillon du génome comme matrice sur laquelle faire l'assemblage.

Diverses techniques, dont les puces à ADN, permettent de mesurer simultanément, dans des populations de cellules données, les niveaux d'expression d'un grand nombre d'ARN messagers. Les techniques de bioinformatique sont absolument centrales pour la mise en place de ces techniques aussi bien que pour l'exploitation des données qui en résultent. Par exemple, le choix des ADN à déposer sur les puces se fait par corrélation croisée entre les données sur le génome et sur le transcriptome, et en fonction de la disponibilité de fragments précis dans des banques d'ADN publiques. D'autre part, l'interprétation des données fournies par ces puces demande des traitements statistiques très semblables à ceux utilisés dans le data mining industriel. La plupart des biologistes n'ayant pas été formés dans ce domaine, il est actuellement du ressort des (bio)informaticiens.

Etude des protéomes

Le protéome est défini comme l'ensemble des protéines exprimées dans un tissu donné sous des conditions données. Quoique conditionnné par le transcriptome, il en est bien distinct aussi bien chimiquement que logiquement (c'est-à-dire que l'expression d'un gène au niveau du ARN messager n'est pas nécessairement corrélé avec celle au niveau de la protéine correspondante). Une série d'avances techniques récentes, en particulier dans les séparations par chromatographie et l'analyse des macromolécules par spectroscopie de masse, a rendu possible l'analyse directe du protéome dans beaucoup d'échantillons biologiques même extrêmement complexes. Les spectromètres de masse en particulier sont maintenant en mesure d'analyser des échantillons à une cadence très élevée, produisant par là même des terabytes de données par jour. Malheureusement, les outils d'analyse informatiques de ces données n'ont pas suivi la cadence, et la protéomique est actuellement une branche qui a cruellement besoin d'outils informatiques nouveaux, et de puissances de calcul rivalisant celles utilisées dans les plus pointues des sciences de l'ingénieur. Il est symptomatique que GeneProt, une compagnie récemment créée pour faire de la protéomique à grande échelle, soit en train d'installer à Genève le plus grand parc informatique non-militaire d'Europe, voire du monde.

Banques de données

Un autre aspect important de la bioinformatique est l'organisation du savoir biologique et biochimique. Par exemple, la séquence brute d'un génome, ou d'une protéine, est de très peu d'utilité pour les biologistes. Ce qui compte, c'est de pouvoir corréler ces séquences avec des propriétés biologiques précises, documentées dans la littérature scientifique. C'est à cette tâche que c'est attelée le groupe qui gère SWISS-PROT, l'une des banques de données les plus utilisées en recherche biomédicale. SWISS-PROT comporte aujourd'hui près de 100'000 fiches, chacune compilée, vérifiée et régulièrement mise à jour par une équipe de biologistes sous la supervision d'Amos Bairoch de l'UniGe. Il existe des milliers de banques de données biologiques de par le monde, certaines très spécialisées et certaines d'intérêt très général, et couvrant tous les sujets possibles et imaginables. Les mieux connues sont probablement GenBank / EMBL / DDBJ, une collaboration internationale visant à documenter (mais pas à annoter) toutes les séquences générées par les différents centres actifs dans ce domaine. Une banque de données très utilisée par les médecins et biologistes est OMIM (Online Mendelian Inheritance in Man), un compendium de connaissances sur les gènes humains et les conséquences médicales de leurs dysfonctionnements, dont l'un des directeurs scientifiques est Stylianos Antonarakis du Département de génétique médicale de l'UniGe. Quoique l'on puisse argumenter que la maintenance de banques de données ne soit pas de la bioinformatique, il est certain que c'est une activité absolument nécessaire aux biologistes, et qui demande une infrastructure et du know-how de haut niveau en informatique.

Perspectives

La bioinformatique n'est pas une discipline en soi. Elle résulte du besoin des biologistes d'analyser les données qu'ils produisent en quantités de plus en plus importantes, et d'intégrer ces données dans un cadre scientifique rigoureux. Il est donc beaucoup plus facile de définir ce qu'est un bioinformaticien (un scientifique qui maîtrise au moins une discipline biologique et l'informatique nécessaire pour résoudre efficacement les problèmes de cette discipline), que ce qu'est la bioinformatique. Certains sujets de recherche en biologie où l'informatique joue un rôle central se sont pourtant dessinés. Il s'agit par exemple de l'analyse de séquences, de la phylogénie moléculaire, de la génétique des populations, de la modélisation moléculaire, du traitement des signaux biologiques (p.ex. ceux générés dans le système nerveux), et dans une certaine mesure de ce que l'on avait pris l'habitude de désigner sous le nom de biologie des systèmes. D'autre part, les informaticiens se sont aperçus qu'ils pouvaient trouver dans la biologie une riche source d'inspiration pour de nouvelles techniques dans leur propre domaine, p.ex. les réseaux neuronaux, les algorithmes génétiques, ou encore la vie artificielle. Ces domaines de recherche ne sont pourtant pas de la bioinformatique à proprement parler, dans la mesure où ils ne concernent que rarement des problèmes touchant directement la biologie.

Ce qui est certain, c'est que les sciences biomédicales auront besoin d'un nombre grandissant de bioinformaticiens, et que nous ne savons encore pas très bien d'où ils vont venir. Les biologistes n'ont traditionellement pas un goût prononcé pour le quantitatif, et les informaticiens sont très rarement formés en biologie. L'ISB, en partenariat avec l'UniGe et l'UniL, a récement mis sur pied un enseignement postgrade en bioinformatique avec des filières pour informaticiens et pour biologistes. Les 20 étudiants par an qui seront formés de cette façon seront cependant loin de suffire aux besoins des mondes académique et industriel en Suisse. Nous espérons que l'EPFL, avec sa vocation de former des gens de terrain, contribuera de façon substantielle à former ces spécialistes dont l'industrie a tellement besoin. L'importance donnée par la nouvelle Présidence aux sciences de la vie ne peut qu'aller dans ce sens. Il y a d'autres perspectives pour les ingénieurs informaticiens que les banques ou les .com.

Quelques URL pour en savoir plus

http://www.expasy.ch
Serveur ExPASy, l'un des premiers serveurs Web de Suisse, et l'un des plus visités dans le domaine de la bioinformatique et de la protéomique.
http://www.ch.embnet.org
Serveur de l'antenne EMBnet suisse, offrant une gamme de services très étendue (et certains uniques au monde).
http://www.expasy.ch/alinks.html
Liste exhaustive de banques de données biologiques et de serveurs Web en bioinformatique.
http://www3.ncbi.nlm.nih.gov/omim
Banque de données OMIM mentionnée dans le texte.
http://www.isb-sib.ch/DEA
Serveur du DEA en bioinformatique de l'ISB.
http://www.bioinformatik.de/cgi-bin/browse/Catalog/Research_and_Education/Online_Courses_and_Tutorials/
Une bonne liste de cours et didacticiels online sur la bioinformatique.
http://www.ebi.ac.uk
Serveur du European Bioinformatics Institute, producteur de la banque de données EMBL.
http://www.ncbi.nlm.nih.gov
Serveur du National Center for Biotechnology Information, le centre de bioinformatique du Gouvernement américain et producteur de la banque de données GenBank.


retour au sommaire du Flash informatique du mois de décembre 2000
retour à la page principale des Flash informatique
Vos commentaires
© FI-10-00 du 19 décembre 2000