FI/10/98

XML
l'amorce d'une révolution pour les systèmes d'information du futur

Christine Vanoirbeek, Afzal Ballim, Omar Abou Khaled, Yassine Rekik, Frederic Bapst & Maria Chiara Pettenati,


Media research group LITH - DI - EPFL

Table des matières

Trois lettres, XML (eXtended Markup Language) joueront désormais un rôle capital pour véhiculer les informations le long des autoroutes de l'information. La nouvelle recommandation issue du W3C (World Wide Web Consortium) quant à l'utilisation de ce nouveau langage de balisage des documents électroniques est bien plus qu'une proposition de nouveau format pour la représentation des informations, elle est annonciatrice d'une vision novatrice quant à la conception des systèmes d'informations du futur.

Contrairement à HTML, l'élaboration de XML est tributaire d'un passé qui intègre le fruit de nombreux travaux de recherche, non seulement dans le domaine de la publication électronique de documents, mais également dans la manière de construire des hypertextes, de gérer les méta-données associées aux documents et ce, sur la base de nouveaux modes d'interactions.

Nous allons, au long de cet article, démontrer les bénéfices d'une telle approche et l'illustrer de manière concrète via un certain nombre de réalisations effectuées sur la base de cette technologie dans le cadre de projets en cours au sein du groupe MEDIA (Models and Environments for Document-related Interaction and Authoring:

http://media.epfl.ch.

retour à la table des matières

Nouveaux systèmes d'information et de communication

Le besoin de transmettre des informations entre individus géographiquement répartis n'est pas nouveau; il s'est manifesté depuis des temps immémoriaux. Au siècle précédent, le téléphone a permis l'échange d'informations vocales. L'ère de l'information digitale et, plus tard, le développement des réseaux a considérablement accru les possiblités offertes aux individus et aux collectivités de communiquer et partager des données multimedia. La télécopie, le développement de solutions bureautiques intégrées, l'accès à des bases de données réparties, le courrier électronique, sont autant d'exemples qui illustrent les progrès réalisés pour faciliter l'échange et la consommation d'informations réparties.

Dans cette optique, l'avènement du Web, et son approche fédératrice quant aux divers services offerts via le réseau Internet est d'un apport primordial. L'engouement des individus pour le Web et son incroyable extension est sans conteste attribuable à l'intégration judicieuse de concepts simplificateurs:

Si la simplicité des mécanismes initialement mis en oeuvre a garanti le succès du Web, elle révèle actuellement les limites de l'approche lorsqu'il s'agit de développer, sur la base du Web, des systèmes d'information et de communication fiables, sécurisés, efficaces, dotés d'outils appropriés de maintenance ainsi que de gestion de droit d'accès à des informations complexes partagées via des communautés d'utilisateurs. Pour faire face à ces problèmes, un certain nombre d'initiatives sont actuellement en cours, sous la supervision du consortium W3C, qui contribuent à faire évoluer de manière significative la structure des piliers sur lesquels repose l'édifice WWW.

retour à la table des matières

La technologie document

Un aspect essentiel et fortement promu par le consortium concerne la représentation et l'utilisation des informations manipulables par les browsers Web. HTML, le langage développé dans ce but, repose sur l'utilisation de SGML (Standard Generalized Markup Language), une norme issue des laboratoires d'IBM qui a fait l'objet d'une standardisation par l'ISO en 1986 pour répondre aux besoins exprimés quant au traitement et l'échange de documents électroniques.

L'évolution de la définition de HTML (3 pages pour la version 1, plus de 300 pages pour la version 4!), l'émergence de XML et son adoption rapide dans des buts très variés témoignent de l'effervescence qui règne dans le domaine et des perspectives offertes en matière de gestion de systèmes d'information où le document jouera désormais un rôle fédérateur.

Il est d'ores et déjà évident que le document électronique n'est plus limité au simple reflet numérisé de sa contrepartie papier: la diffusion d'information sur le Web, destinée à une utilisation interactive sous la forme d'hypertexte (accès par point and click), l'utilisation du document en tant qu'interface (les formulaires WWW, par exemple), la génération au vol de documents virtuels, les documents auxquels on intègre un comportement (via des applets Java, par exemple) sont représentatifs de cette tendance.

Dans le monde document, la partie visible de l'iceberg réside dans l'élaboration de normes et leur aptitude à répondre aux besoins liés à l'utilisation des documents par des applications informatiques: développement d'outils auteur, échange de documents, réutilisabilité de documents (partie de documents) entre applications, accès hypertexte aux informations, etc.

Afin de cerner correctement l'importance des enjeux, de percevoir concrètement les bénéfices d'une définition étendue de la notion de document électronique et de son rôle précurseur dans une période charnière en matière de conception de systèmes d'information, nous proposons un parcours commenté des principales normes qui ont contribué à des avances significatives dans le domaine.

Il était une fois SGML...

L'intérêt des informaticiens pour les documents électroniques s'est manifesté il y a plus de vingt ans lorsque les ordinateurs, et surtout les périphériques qui leur sont associés, ont démontré la possibilité de produire des documents de qualité typogaphique toujours croissante. S'inspirant des pratiques en cours dans le monde de l'édition, les recherches entreprises dans le domaine ont été intégrées dans la norme SGML (Standard Generalized Markup Language) qui véhicule deux idées fondamentales:
  1. Une approche descriptive qui dissocie clairement l'organisation logique d'un document (point de vue de l'auteur) et sa mise en évidence par une structure physique appropriée (point de vue du typographe). Cette approche offre l'avantage de générer aisément plusieurs visions d'un même contenu: un document papier et un document Web, par exemple!
  2. La faculté de décrire des classes de documents; on ne fera pas la même utilisation d'un document juridique, d'un manuel utilisateur, des données d'un tableur ou d'un document Microsoft Project. SGML est un métalangage qui permet, via la notion de DTD (Document Type Definition), de définir un modèle de classe de document approprié au traitement réservé aux instances de cette classe.

retour à la table des matières

Les jours de HTML sont-ils comptés?

Il est vaissemblable que HTML continuera à être utilisé encore longtemps par une certaine catégorie d'utilisateurs. Il y a néanmoins, selon nous, plusieurs bonnes raisons de se poser la question quant à une utilisation plus professionnelle des informations manipulées à travers le Web.

HTML a méprisé la notion de classe de document

HTML est une application de SGML dans la mesure où la spécification de HTML est décrite au moyen d'une DTD SGML. Seulement, voici où le bât blesse: HTML décrit la classe des documents WWW et a, dans ce sens, violé un des sacro-saints principes de SGML! La seule façon raisonnable de décrire une classe de documents aussi large était de proposer une structure très vague susceptible d'accomoder la grande variété de documents potentiellement diffusables sur le Web. Les conséquences de cette vision réductrice se fait sentir de nos jours car elle limite bien évidemment la gamme des traitements informatiques que l'on peut appliquer aux documents.

HTML a sous-estimé la complexité des informations à représenter dans un document

La nature des informations que l'on est susceptible d'incorporer dans un document dépasse largement le cadre des données textuelles. Le développement quelque peu anarchique de la DTD HTML et sa complexité croissante sont principalement dus aux efforts consentis dans ce domaine pour progressivement intéger les tableaux, les images, les formules, les applets, les éléments externes, etc. L'utilisation croissante du Web à des fins diverses a fait ressortir ces problèmes bien connus depuis des années dans le domaine du traitement des documents structurés. L'utilisation de composants multimedia constitue également un nouveau défi car il introduit une composante temporelle lors de la restitution des informations. Enfin, l'intégration de la dimension multilingue a également été sous-estimée et est, elle aussi, remise au goût du jour.

HTML est tombé dans le piège de la compatibilité

Les versions succcessives de HTML traînent un lourd fardeau car il s'agit d'assurer la compatibilité avec les anciennes versions de la norme. Un exemple illustratif concerne la spécification de l'aspect physique du document. La première version de HTML intégrait (une fois de plus, à l'encontre de la philosophie SGML!) des éléments relatifs à la restitution du document (utilisation du gras ou de l'italique, insertion de saut de pages, de filets, etc). Faisant marche arrière par rapport à cette approche, la notion de CSS (Cascading Style Sheet) a été introduite pour traiter de manière plus appropriée la séparation entre le contenu d'un document et sa visualisation et/ou impression. Il n'en subsiste pas moins, qu'à l'instar du développement de logiciels, l'évolution de HTML doit faire face au syndrome bien connu du maintien de la compatibilité entre versions!

retour à la table des matières

XML, la fin de tous les maux?

Sans vouloir tenir des propos exagérément optimistes, la recommandation XML issue du consortium W3C, nous semble d'un avenir prometteur à divers égards pour plusieurs raisons.

XML réintroduit la notion de métalangage

XML est en réalité un sous-ensemble de SGML; dans ce sens, il s'agit bel et bien d'un métalangage basé sur la notion de DTD qui offre la possibilité aux utilisateurs d'une part, de définir, en fonction de leur besoin, le nom des balises qu'il souhaitent utiliser dans leur documents (autrement dit, il permet d'appeler un chat, un chat ... et pas H1!) et d'autre part, d'imposer un modèle de document, c'est-à-dire l'équivalent d'une structure de données appropriée à un traitement informatique spécifique.

XML évite le piège de la compatibilité

L'une des critiques majeures que l'on peut formuler à l'égard de SGML est sa complexité, notamment en termes de propriétés syntaxiques. Ceci a constitué un frein important au développement d'outils basés sur SGML et explique, en gande partie, pourquoi de tels outils coûteux n'ont pénétré que certains marchés (les maisons d'édition, le domaine aérospatial, etc.) où les besoins de gestion de documents sont primordiaux. XML balaye ces défauts et propose une version simplifiée de SGML, favorisant ainsi le développement rapide d'outils (parseurs, éditeurs, etc.) susceptibles de manipuler et transformer des documents existant sous une forme structurée.

XML et consorts (XSL, XLL) intégrent l'état de l'art de la recherche en matière d'hyperdocuments multimedia

XML ne peut être dissocié de ses normes annexes telles que XLL (eXtended Link Language) et XSL (eXtended Style Language). XLL intègre des concepts issus d'une autre norme, HyTime dont l'utilisation à terme est, selon nous, compromise mais qui présente l'avantage d'avoir contribué à l'enrichissiment de XML. HyTime, entre autres choses, propose une manière de représenter des hyperliens entre documents de manière beaucoup plus riche que l'utilisation d'un simple pointeur unidirectionnel, le modèle des liens hypertextes implémenté actuellement sur le Web. Il introduit également des notions importantes pour représenter les composants multimedia d'un document. XSL est influencé par une autre norme, DSSSL (Document Style Semantics and Specification Language) qui a été élaborée dans le but de spécifier formellement les traitements à effectuer sur les documents structurés en termes de transformations de structure. Le «S» retenu dans XSL est celui qui s'adresse à une transformation particulière du document et qui a pour objectif de spécifier son aspect physique.

XML ouvre la voix à l'interopérabilité entre applications

Le point qui différencie fondamentalement XML de SGML est la possibilité qu'offre XML de s'affranchir de la notion de DTD. La norme XML fait la distinction entre document valides (syntaxiquement corrects) et document conformes (dont l'organisation est régie par une DTD). Ceci offre une nouvelle vision du statut de document électronique qui consiste à le considérer et le traiter, de manière plus générale, comme un flot de données structuré destiné à être interprété par des applications variées.

retour à la table des matières

XML: Tout le monde s'y met

La multiplicité des applications de XML montre l'intérêt et la puissance que présente ce nouveau métalangage. A titre d'exemple nous pouvons citer:
  1. MathML (Mathematical Markup Language) offre deux moyens de définir les expressions mathématiques: les balises de présentation qui gèrent l'affichage sur l'écran, et les balises de contenu qui explicitent la signification mathématique sous-jacente d'une expression représentée par des symboles.
  2. PGML (Precision Graphics Markup Language) fournit un format pour le dessin vectoriel appliqué au Web.
  3. CML (Chemical Markup Language) permet la description de la composition chimique des molécules.
  4. BHTML (Broadcast Hypertext Markup Language) est le langage des environnements logiciels de la télévision numérique.
  5. SDML (Signed Document Markup Language) permet la signature électronique des documents. Ce langage est très utile pour le commerce électronique et les transactions financières.
  6. AML (Astronomical Markup Language) sera le format d'échange de méta données astronomiques.
  7. GedML (Genealogical Markup Language) concerne la généalogie.
  8. ThML (Theological Markup Language) a été annoncé pour les études théologiques.
  9. SMIL (Synchronized Multimedia Integration Language) propose une manière de spécifier les contraintes temporelles entre les composantes multimédia d'un document.
retour à la table des matières

Les activités du groupe MEDIA du LITH dans le domaine de la technologie XML

L'ensemble des projets en cours au sein du groupe de recherche MEDIA se concentre sur les modèles de représentation d'informations à l'aide de grammaires à attributs (la base sur laquelle reposent les différentes normes relatives à la description de documents telles que SGML, HyTime et XML), l'intégration et l'exploitation de ces données dans les systèmes d'informations distribués et le développement d'algorithmes appropriés pour leur traitement. La section suivante donne un aperçu d'un certain nombre d'actions en cours pour répondre à ces problèmes dans le cadre de projets relatifs à deux domaines applicatifs: l'éducation à distance et le commerce électronique.

retour à la table des matières

Le domaine de l'éducation

Le projet MEDIT

Le projet MEDIT (Multimedia Environment for Distributed Interactive Teaching) vise à la mise au point d'un environnement auteur pour la création de cours interactifs sur le Web. Il offre une multitude de services (outils auteurs, outils de recherche, outils de communication et outil administratifs).

Création et design personnalisés des interfaces de l'environnement MEDIT

MEDIT est capable de gérer plusieurs espaces virtuels relatifs à différents cours. Il permet également à chaque professeur d'installer facilement les services qu'il souhaite ou qu'il juge pertinents pour son travail. Il permet aussi la personnalisation de l'interface des services choisis. En effet, au moment de la création de l'espace cours et le choix des services, le professeur décidera de l'aspect physique des interfaces des services qu'il choisit. Ces choix (couleur de fond, polices de caractères, taille, titre, etc.) sont stockés en XML (voir illustration). Les générateurs d'interfaces de services se basent sur des données XML.

Présentation hypertexte des éléments d'un exercice

MEDIT propose un outil auteur qui permet la décomposition d'un document (exercice par exemple) en plusieurs éléments selon une structure logique décidée par l'utilisateur. Cet outil génère une structure hypertexte reliant les différents éléments du document.

Cette approche permet au professeur de proposer des exercices bien structurés reflétant la démarche de résolution et mettant en relief les éléments qu'il juge importants. En plus, elle lui permet de protéger certains éléments pendant un laps de temps selon les besoins de son cours. Du côté de l'étudiant, cette démarche offre un accès rapide aux éléments qui l'intéressent à un instant donné (résultat final, méthode de résolution,...). L'outil permet le chargement des documents à distance (voir illustration) et la définition de leur structure logique. La structure logique est stockée en XML et sera utilisée par le générateur pour créer la structure hypertexte correspondante.

Outil auteur pour la représentation multidimensionnelle des données

MEDIT offre un outil auteur permettant la présentation d'un cours selon une vue thématique. Cette vue permet un accès rapide et non linéaire à l'information. Son fonctionnement est basé sur une représentation arborescente des thèmes du cours et permet, par des choix selectifs, d'accéder à une information ciblée. L'originalité de cette vue provient du fait qu'elle donne une vision globale des thèmes abordés dans un cours et de leurs relations. La figure illustre une application de cette approche pour un cours de mécanique vibratoire (créé par Christophe Krebs - LMAF). Le professeur représente les concepts de son cours par une structure arborescente. La structure de l'arbre est représentée en XML. Un parseur XML filtre le fichier et génère l'ensemble des fichiers HTML correspondants aux différentes combinaisons des thèmes et de leurs relations. Une interface reflétant la structure de l'arbre est générée automatiquement et facilite ainsi l'accès à l'information appropriée.

Le projet CLASSROOM-2000

Le projet ClassRoom 2000 regroupe plusieurs institutions d'enseignement supérieur en Suisse ainsi que plusieurs entreprises industrielles. Il vise à la définition d'un campus virtuel basé sur l'utilisation des nouvelles technologies de l'information et de la communication.

Intégration des documents structurés dans un système d'information global

Dans ce contexte, un travail de thèse s'intéresse au problème de gestion (stockage, accès, et manipulation) des documents structurés (spécialement les documents XML). Cette thèse aborde les points suivants: modèle de conception d'un corpus de documents structurés, gestion des documents structurés (validation avec le format XML et l'utilisation des bases données), et enfin, la réutilisation de fragments de documents. La validation de ces concepts se fera dans le cadre de la création et gestion de cours interactifs. Les deux projets décrits ci-après (Course Designer et Télé-Laboratoire) sont en relation étroite avec ce travail.

Course Designer

Le projet Course Designer est une collaboration entre le groupe MEDIA et la companie MasterEye pour le développement d'un outil de création de cours interactifs. Ce projet s'articule autour de deux axes. Premièrement, le développement d'une librairie partagée de composants de cours. Dans cette partie le problème de modélisation des composants de cours avec XML, ainsi que le problème de stockage et d'interrogation de composants XML dans une base de données seront étudiés et implémentés. Deuxièmement, le développement d'un outil auteur pour la création de cours interactifs avec la possibilité d'importation et d'exportation de composants à partir de la librairie partagée.

Télé-Laboratoire

Ce projet est une collaboration entre le groupe MEDIA et l'École d'ingénieurs de Fribourg (voir schéma sur la page suivante). Son objectif est de permettre la génération, la visualisation, et la distribution de mesures de protocoles réseaux via Internet. Il s'agit de concevoir une modélisation générique en XML pour des mesures de trafics réseaux pour différents protocoles (ATM, ISDN, TCP/IP, X25, etc.). Les mesures seront disponibles à partir d'un serveur Web et visualisables par des applets Java.

retour à la table des matières

Le domaine du commerce électronique

Le projet RFP

Le projet RFP (Request For Proposal) reconsidère les mécanismes d'appels d'offres dans le contexte des marchés électroniques, et des technologies liées à Internet. Processus important mais complexe parmi les relations inter-entreprises, l'appel d'offre n'a pas encore pu profiter pleinement des supports informatiques; des économies substantielles se profilent, pour les clients comme pour les soumissionnaires. Dans cette optique, le projet RFP, soutenu par le Fonds National, rassemble des partenaires aux compétences particulièrement complémentaires : modèles de marché (HEC Lausanne), interfaces «business-to-business» (Uni Genève), stratégie d'information commerciale (Pioneers RCG), et technologie documentaire (EPFL). De par sa souplesse et le consensus qu'il suscite, XML est destiné à jouer un rôle clé dans les futures applications du commerce électronique. Nous allons exploiter XML pour structurer toute l'information à traiter, de façon à:

retour à la table des matières

Boîte à outils et critère de choix

XML4Java
IBM
Datachanel Microsoft Xsilfide Xml : :parser Xparser XML sun XP Aelfred Lark /larval
Appréciation générale (Subjective) complet complet complet petites réalisations micro réalisations riche petites réalisations petites réalisations petites réalisations 
Vérification des documents bien formés oui oui oui oui oui oui oui oui oui 
Validation des documents oui oui oui oui non non non non non/oui 
Langage de développement Java Java Java Perl Javascript Java Java Java Java
Documentation bonne moyenne suffisante petite petite moyenne petite petite suffisante 
API DOM/SAX DOM DOM/SAX non défini DOM DOM/SAX SAX SAX non défini 
Version beta beta beta beta beta beta beta beta beta 
Taille du parser 460Ko 144Ko 200Ko 23 Ko 5 Ko 106 Ko 270Ko 26Ko 45Ko

Sur la base de multiple travaux (thèses, projets, travaux de diplômes) réalisés au sein du groupe MEDIA concernant la technologie XML, nous proposons un inventaire partiel des parseurs actuellement disponibles sur le marché. Cette étude est utile pour les futurs utilisateurs de la technologie XML. Toutefois, les critères sur lesquels elle se base et les jugements apportés restent assez subjectifs.

Liste des étudiants ayant contribué à cet inventaire: Baettig I., Camesi A., Descloux A., Farine C., Froidevaux P., Kleijer P., Oswald O., Wuthrich M.

retour à la table des matières

Références

  1. Le Magazine PROGRAMMEZ (Nov-98, numéro 4)
  2. Le Magazine NETPRO (Nov-98, numéro 5)
  3. http://www.w3c.org
  4. http://media.epfl.ch
  5. http://medit.epfl.ch:4444
  6. http://sunsite.unc.edu/xml
  7. http://classroom2000.epfl.ch
retour au sommaire du Flash informatique du mois de décembre 98 
retour à la page principale des Flash informatique
Vos commentaires
© FI-10-98 du 15 décembre 1998