FI SPECIAL ETE 97
 

le techno-quotidien

À la poursuite de l'information: techniques de recherche et d'analyse pour données textuelles

Martin Rajman & Boi Faltings,
EPFL-DI, Laboratoire d'intelligenceartificielle

Table des matières


La généralisation de l'utilisation de moyens informatiques dans un nombre toujours croissant de secteurs de l'activité humainea aujourd'hui pour conséquence la production d'un volume considérable d'information sous forme électronique: une réunion peut donner lieu à un compte-rendu, produit à l'aide d'un traitement detexte, correspondant donc à un fichier électronique; une opération réalisée par l'intermédiaire d'un guichet automatique produit un enregistrement dans le système informatique de la banque concernée; un simple appel téléphonique correspond à une transaction stockée dans une base de donnée par l'opérateur de télécommunications... Souvent, les données électroniques ainsi produites ne sont qu'un sous-produit d'une activité dont elles ne constituent pas la finalité principale mais elles existent  néanmoins et, du fait de l'augmentation continue des capacités de stockage des systèmes informatiques, sont de plus en plus souvent conservées. L'objectif de cet article est de présenter les conséquences de la disponibilité croissante de documents électroniques sur les diverses techniques de recherche et de collecte d'information. Nousnous intéresserons tout d'abord aux différents aspects dela recherche documentaire sur le Web puis aux techniques de collecte passive d'information comme le push data et aux techniques d'analyse de bases de données textuelles comme le Text Mining.

Retour à la table des matières

Recherche documentaire sur le Web

L'interconnexion progressive des sites par le biais de vastes réseaux informatiques comme l'Internet, l'accessibilité de ces réseaux à travers des réseaux de communication classiques (le réseau téléphonique en particulier) ainsi que la généralisation de techniques normalisées d'adressage et de mise en forme des documents (URL - Uniform Resource Locators - et langage HTML) mettent aujourd'hui une quantité sans précédent de documents à portée d'un clic de souris de tout internaute . Cependant, après l'euphorie des premières heures d'exploration du Web, l'utilisateur devient rapidement conscient de la masse d'information considérable que représente la gigantesque base documentaire distribuée constituée de l'ensemble des documents potentiellement accessibles sur le réseau... et la question de l'exploitation efficace de cette information se pose alors de façon cruciale. Bien sûr, de nombreux engins de recherche (Alta Vista, Lycos, Yahoo,...) sont aujourd'hui disponibles mais les techniques intégrées dans ces systèmes sont pour l'essentiel issues du domaine de l'informatique documentaire dont les principes, mis en oeuvre dans la plupart des systèmes utiliséspar les bibliothèques ou les centres de documentation, ont été développés dans le courant des années 60. Parmi les principes importants, on peut ainsi citer: Ces principes, qui conditionnent de façon sensible l'efficacité des techniques de recherche documentaire classiques, ne sont pour la plupart pas adaptés à la nature spécifique de la base documentaire virtuelle que constitue le Web. En effet: En plus de ces différences, une autre caractéristique essentielle du Web est qu'il correspond par essence à un système de nature extrêmement dynamique (un nombre considérable de documents apparaissent et disparaissent tous les jours, voire toutes les heures !) dont une part importante est constituée de documents volatiles( i.e. de documents à faible durée de vie comme les newspar exemple). Ceci n'est pas le cas des bases documentaires classiques pour lesquelles des rythmes de mise à jour moins frénétiques et des durées de vie plus longues pour les documents permettent un investissement (en temps et en ressources) plus important dans le pré-traitementdes documents avant leur introduction dans la base.

Compte-tenu des ces différents points, quelles perspectives pouvons-nous attendre pour ce qui est du développement de systèmes de recherche documentaire sur le Web ?

Du fait de la masse d'information que représente l'ensemble des documents accessibles par le Web, il apparaît clairement que les progrès de l'informatique documentaire vont être essentiellement conditionnés par la mise au point de techniques de recherche d'information adaptées aux spécificités des documents présents sur l'Internet. Parmi les caractéristiques importantes que devront posséder ces techniques, on peut citer:

Retour à la table des matières

la prise en compte de documents multimédia

Une part de plus en plus importante des documents produits correspond à des documents composites, c'est-à-dire des documents qui intègrent, en plus de leur contenu textuel, des constituants de nature extrêmement variée (tableaux et graphiques par exemple, mais aussi images, sons ou séquences vidéo). De ce fait, une prise en compte accrue des éléments non-textuels dans le processus de recherche d'information est incontestablement un des points-clés pour le développement de systèmes documentaires efficaces. L'intégration effective de composants multimédia dans les mécanismes de recherche nécessite principalement la résolution de deux types de problèmes:
Retour à la table des matières

une sensibilité accrue aux spécificités de l'utilisateur

Un système de recherche d'information est d'autant plus efficace qu'il fournit des moyens sophistiqués permettant une adaptation fine aux particularités des différents utilisateurs. En effet, quelle que soit la qualité des méthodes de recherche proposées, leur application indifférenciée à de larges populations d'utilisateurs potentiellement hétérogènes se traduit, de la part des systèmes, par un comportement moyen, pénalisantp our les performances individuellement perçues par chacun des utilisateurs. Cette nécessité d'intégrer dans les engins de recherche la notion de modèle d'utilisateur a été comprise très tôt par la communauté de l'informatique documentaire, mais sa mise en pratique dans les systèmes s'avère difficile car, s'il est relativement aisé de proposer des formalismes permettant de décrire des modèles, il est par contre particulièrementardu de produire les modèles réels décrivant un utilisateur (ou un groupe d'utilisateurs) donné. L'utilisateurlui-même a d'ailleurs, dans beaucoup de cas, de la peine à décrire de manière formelle et explicite ses propres spécificités.

Une des pistes prometteuses pour contourner cette difficulté de modélisation est de chercher à dériver les spécificités des utilisateurs à partir de leur interaction avec le systèmed'information. Un exemple d'une telle démarche sont les méthodes de relevance feedback (voir fig. 3) utilisées en recherche documentaire. Dans ce type de méthodes, le processus de recherche d'information est décomposé en deux phases distinctes:

  1. un traitement initial de la requête par le système à l'aide des techniques standard; cette première phase se traduit par la production d'une liste de documents potentiellement pertinents transmise à l'utilisateur
  2. un filtrage par l'utilisateur de la liste fournie menant à l'identification d'un ensemble de documents considérés comme pertinents par l'utilisateur. Les caractéristiques de ces documents peuvent alors être utilisées pour affiner la requête initiale (dans la pratique, les documents sélectionnés sonttout simplement ajoutés à la requête) et l'ensemble du processus peut alors être itéré jusqu'à satisfaction de l'utilisateur.

Les techniques à base de relevance feedback s'avèrent extrêmement efficaces dans la pratique mais ne correspondent pas, au sens strict, à une modélisation de l'utilisateur puisque l'intégration de ses spécificités n'intervient qu'après la satisfaction initiale de la requête et nécessite une interaction explicite avec le système. Une direction de recherche actuellement explorée consiste alors à mémoriser les caractéristiques des documents sélectionnés comme pertinents et d'utiliser ces caractéristiques pour conditionner de façon permanente le comportement du système d'information (lors des interactions avec l'utilisateur concerné).

 
Fig. 1 - recherche documentaire classique

une prise en compte plus fine du contenu effectif des documents

Ce point est probablement l'un de ceux pour lesquels les marges de progrès potentiels sont aujourd'hui les plus fortes. En effet, dans la quasi totalité des systèmes de recherche documentaire actuels, la représentation du contenu des documents traités reste extrêmement rudimentaire et prend le plus souvent la forme d'ensembles de mots-clés (automatiquement extraits des documents ou manuellement affectés), éventuellement pondérés. Une telle représentation du contenu est de fait particulièrement pauvre car elle ne prend aucunement en compte la structure linguistique des textes manipulés. Ainsi, une phrase comme:

l'augmentation des exportations de la Suisse vers la France entraîne une diminution du déficit du commerce extérieur
serait typiquement représentée par l'ensemble de mots-clés (classés ici par ordre alphabétique)
{augmentation, commerce, déficit, diminution, entraîne, extérieur, France, Suisse}
mais ce même ensemble pourrait également être associé à la phrase, fort différente en termes de contenu:
l'augmentation du déficit de la France entraîne pour la Suisse une diminution du commerce extérieur

D'une façon générale, un ensemble de mots-clés ne préserve qu'une faible fraction du sens du texte original. L'intégration dans les systèmes de techniques plus sophistiquées permettant en particulier, à l'aide de procédures de traitement automatique du langage naturel, de conserver dans les représentations associées aux énoncés une part plus importante de leur structure linguistique est de ce fait un axe de recherche de plus en plus exploré. Parmi les techniques pour lesquelles il est réaliste de s'attendre à des réalisations opérationnelles à court ou à moyen terme, on peut ainsi citer:

et pourraient de ce fait servir de support pour une discriminationau niveau du contenu.
Fig. 2 - recherche documentaire en texte intégral
Retour à la table des matières

le multilinguisme

Après une première phase caractérisée parune large domination de la langue anglaise, le contenu du Web est aujourd'hui en train de s'internationaliser avec l'apparition d'un volume toujours plusi mportant de documents dans les différentes langues nationales (espagnol,français, allemand,...). Le besoin de la prise en compte du multilinguisme dans le domaine de la recherche d'information devient de ce fait de plus en plus sensible et l'un des signes de cette évolution est l'intégration récente, dans les campagnes d'évaluation des systèmesde recherche documentaire organisées de façon régulière dans le cadre des conférences TREC (Text Retrieval Evaluation Conference), de sessions spécifiquement dédiées à la recherche documentaire multilingue. Bien sûr, la réponse naturelle au problème du multilinguisme serait la mise en oeuvre de techniques de traduction automatique. Requêtes et documents seraient dans ce cas tout simplement traduits dans la langue adaptée pour le traitement réalisé... Cette solution idéale se heurte malheureusement, dans la pratique, à de nombreux obstacles. En particulier, les requêtes produites par les utilisateurs des systèmes de recherche sur le Web sont extrêmement courtes (moins de deux mots en moyenne !) et de ce fait, paradoxalement, souvent difficiles à traduire car l'absence de contexte rend de nombreux mots ambigus. Par exemple, si un utilisateur francophone soumet une requête comme: émission , le contexte ne permettra pas de décider si la traduction anglaise devrait être broadcasting (émission radio), programme (émission télé), issuing (émission d'une monnaie) ou emission(fait d'émettre). On pourrait objecter que le contexte n'est pas plus discriminant pour la requête d'origine, pour laquelle l'ambiguïté est tout simplement implicite dans le mot utilisé, et qu'une traduction possible serait donc la requête composée: broadcasting OR programme OR issuing OR emission . Ceci n'est que partiellement vrai en raison de l'ambiguïté des mots utilisés dans la requête composée, dont un sens seulement correspond à la requête d'origine. En effet, retraduite en français, la requête broadcasting OR programme OR issuing OR emission donnerait quelque chose comme: radiodiffusion OU télévision OU programme OU emploi du temps OU émission , ce qui illustre bien la dérive de sens liée à la traduction.

Différentes pistes sont explorées pour apporter des solutions au problème de traduction de requêtes. La plus simple consiste à demander à l'utilisateur d'indiquer plus de mots dans sa requête (qui pourrait être par exemple émission de télévision ) de façon à augmenter le contexte disponible pour la désambiguïsation sémantique. Une autre possibilité consiste à effectuer tout d'abord la recherche d'informations sur le sous-ensemble de la base documentaire correspondant aux documents dans la même langue que la requête d'origine, de présenter les résultats de cette première recherche à l'utilisateur et de lui demander de sélectionner au moins un document pertinent qui pourra alors être utilisé comme contexte pour la traduction de la requête (cette approche est similaire sur le principe aux méthode de relevance feedback déjà évoquées).

Retour à la table des matières

l'incrémentalité

Cet aspect n'est qu'indirectement perceptible pour l'utilisateur à travers les performances du système de recherche, mais c'est incontestablement un élément essentiel pour le développement des systèmes documentaires futurs. En effet, la sophistication progressive des techniques d'indexation utilisées se traduit par une augmentation sensible de leur coût algorithmique, phénomène encore amplifié par l'augmentation continue du volume de documents à traiter.

Si l'on raisonne à ressources informatiques constantes, une augmentation de la complexité des algorithmes se traduit par un allongement des temps de traitement... et, comme nous l'avons déjà souligné, la grande variabilité de l'information présente sur le Web nécessite des rythmes de mise à jour particulièrement rapides. Le risque est alors que le temps de mise à jour excède la durée de vie d'une fraction importante des documents ayant entraîné cette mise à jour!... Des techniques d'indexation automatique qui présupposeraient le calcul des structures d'indexation sur l'ensemble des documents à chaque mise à jour ne pourront de ce fait que difficilement constituer une alternative viable pour l'avenir.

On pourrait objecter à ce raisonnement que l'accroissement constant de la puissance des systèmes informatiques pourrait suffire à absorber à la fois l'augmentation de la complexité des algorithmes et celle du volumes des documents à traiter. Bien qu'il soit difficile de donner une réponse définitive à ce type de problématique (les projections des taux d'expansion du Web sont pour l'instant encore assez peu fiables...), la foi dans l'augmentation de la puissance des systèmes informatiques est probablement justifiée pour ce qui concerne l'absorption de la croissance du volume des données à traiter. Elle le paraît cependant beaucoup moins pour ce qui est de l'augmentation de la complexité algorithmique des traitements consécutiveà une plus grande sophistication des techniques employées. En effet, les systèmes de recherche documentaire actuellement opérationnels à grande échelle utilisent pour l'instant des structures d'indexation relativement simples (typiquement des vecteurs d'attributs, éventuellementpondérés) et les prototypes, développés par différentes équipes de recherche, qui intègrent des techniques plus complexes (Latent Semantic Indexing, sémantique distributionnelleou réseaux probabilistes) se heurtent de façon systématique au problème de leur mise en oeuvre sur des bases documentaires de très grande taille.

 
Fig 3 - recherche documentaire avec feedback
Retour à la table des matières

Le Push Data

Dans la section précédente nous nous sommes intéressés à l'activité de collecte d'information vue dans une perspective caractéristique du domaine de la recherche documentaire. Dans cette perspective, l'utilisateur joue un rôle particulièrement actif du fait que la recherche d'information est réalisée sur la base de requêtes qu'il définit explicitement et soumet à un (ou éventuellement plusieurs) engin(s) de recherche.Ce type d'approche, que l'on qualifie quelquefois de collecte active d'information, est une approche qui, par essence, laisse une place importante à l'utilisateur mais qui, de ce fait, lui impose également des contraintes fortes: En raison de ces contraintes, la notion de collecte active n'est pas nécessairement adaptée à l'ensemble des situations auxquelles un utilisateur peut être confronté. En effet, un utilisateur typique manque souvent du temps nécessaire pour se consacrer de façon efficace à la recherche d'information. De plus, dans bien des cas, il ne sait pas exactement ce qu'il cherche et se trouve plutôt dans une situation où son besoin d'information pourrait s'exprimer comme dans la base d'information que voici, trouve-moi ce qui est intéressant (ou pertinent) pour moi . Un exemple caractéristique de ce type de situation intervient lorsqu'on doit prendre connaissance d'un épais document (rapport, compte-rendu,...) que l'on n'a pas le temps, ou l'envie, de lire dans son ensemble. Il est de ce fait nécessaire de proposer, en plus de l'approche active de la collecte d'information, des schémas alternatifs, que nous qualifierons de collecte passive d'information, permettant de prendre en compte de façon efficace ces différents types de situations. Les serveurs d'information de type push data sont un exemple de ce type de démarche.

L'approche push data n'est dans le fond que la remise au goût du jour de la notion bien connue d'abonnement à une source d'information continue. Dans cette approche, l'utilisateur sélectionne (par le biais d'un abonnement, d'une inscription,...) un serveur d'information qui va alors lui transmettre des données au fur et à mesure de leur production. Des exemples caractéristiques de ce type de serveur sont les agences de presse qui diffusent en continu des dépêches à leurs abonnés.

Comme nous l'avons déjà souligné, l'un des aspects importants de l'approche push data est de faire passer, de l'utilisateur au serveur d'information, la responsabilité de la sélectionde l'information transmise. L'utilisateur est de ce fait cantonné à un rôle plus passif (mais aussi moins exigeant) du fait qu'il se trouve déchargé de l'activité de recherche effective. Une bonne illustration de cette opposition entre approches actives et passives de la collecte d'information est, dans le domaine de l'Internet, les news et les mailing lists (listes de diffusion). Dans le cas des news, c'est utilisateur qui décide, par le choix des news groups qu'il consulte et la navigation qu'il fait au sein des bases de messages associées, de l'information à laquelle il désire accéder.Dans le cas de l'abonnement à une mailing list, l'information est au contraire transmise automatiquement par le serveur (i.e. le programmechargé de la gestion de la liste) sous la forme de courriers électroniques et l'utilisateur se trouve donc effectivement déchargé de l'activité de collecte. Un autre exemple caractéristique de système permettant une collecte passive est le serveur d'information de la chaîne ABC, auquel il suffit de se connecter à l'aide de son navigateur (browser) favori (Netscape(tm), Explorer(tm),...) pour voir ensuite défiler en continu sur l'écran les dépêches diffusées (voir l'URL http://abcnews.com ).

Du fait de l'existence de techniques de collecte passive, par définitionmoins coûteuses en temps passé à la recherche d'information, on pourrait légitimement se demander quel est alors l'intérêt des approches actives, de type recherche documentaire... Quelques jours(voire seulement quelques heures) de connexion à un serveur pushdata suffisent pour apporter une réponse à cette question: du fait que, dans une approche passive, la sélection de l'information diffusée est réalisée par le serveur et non l'utilisateur final, la pertinence effective de l'information transmise devient en moyenne extrêmement faible et le temps passé par l'utilisateur à parcourir des informations sans intérêt devient rapidement au moins aussi important que celui qui aurait pu être investi dans une recherche d'information plus active... Ce point fait ressortir une contrainte essentielle pour la mise en oeuvre d'une approche push data : pour devenir effectivement utilisables, les techniques de collecte passive doivent être complétées par la mise en place, sur le flux d'information transmis, de filtres prenant en compte les spécificités du destinataire final. La mise au point de techniques de filtrage efficacesde données textuelles apparaît de ce fait comme l'une des conditions incontournables pour le développement futur des serveurs d'information. Les efforts de recherche entrepris dans ce domaine font essentiellement ressortir deux axes principaux:

Il est à noter que, dans chacun des deux cas cités ci-dessus,le problème de filtrage est ramené à un problèmede décision d'affectation d'un élément donnéà une classe (représentée par un ou plusieurs élémentscaractéristiques) prise au sein d'un ensemble de classes connu apriori. Les mesures du degré de similarité entre élémentstextuels sont dans ce cas celles utilisées dans le domaine de larecherche documentaire.
Retour à la table des matières
 

Le Text Mining

À la différence des techniques de filtrage mises en oeuvre dans le cadre d'approches de type push data , les techniques de TextMining ne cherchent pas a priori à effectuer une sélection au sein d'un vaste ensemble de documents mais plutôt à fournir à l'utilisateur une représentation utilisable de la masse d'information ainsi disponible. Plus précisément, les objectifs (complémentaires) suivants sont le plus souvent considérés:

Visualisation d'ensembles de documents

La visualisation est probablement l'une des techniques les plus intuitives de représentation d'une base documentaire. L'idée est de représenter de façon géométrique (i.e. sous la forme de pointsplus ou moins éloignés) les plus ou moins grandes similarités de contenu entre les documents constituant la base. Très simple sur le principe, cette approche nécessite toutefois, pour sa mise en oeuvre pratique, la résolution de plusieurs problèmes complexes: Comme nous l'avons déjà souligné, la visualisation de base de documents de taille importante correspond à un problème complexe qui fait actuellement l'objet de nombreux travaux de recherche. Les techniques décrites ci-dessus, essentiellement fondéessur les approches développées dans le cadre de l'analyse de données, ont l'avantage de s'appuyer sur une théorie clairement définie et des algorithmes bien maîtrisés. Leurs inconvénients principaux sont: Pour ces différentes raisons, plusieurs approches alternativessont actuellement explorées. En particulier, des techniques non-linéairesà base de réseaux connexionnistes (cartes auto-organisatricesde Kohonen) sont en cours de développement pour la représentationdes documents présents sur un site Web (voir à ce propos leprojet Websom à l'URL http://websom.hut.fi/websom/).L'utilisation d'autres techniques d'analyse non-linéaires comme l'analyseen composantes curvilignes est également envisagée.
Retour à la table des matières

Structuration automatique d'un ensemble de documents

Des techniques de visualisation performantes facilitent incontestablementl'accès à l'information contenue dans une base de donnéestextuelles. Cependant, dans le cas de bases de taille importante, ces techniquesdemeurent largement inopérantes si elles ne sont pas complétéespar des procédures permettant également la réductionde la quantité d'information présentée à l'utilisateur.En effet, quelle peut être l'utilité intrinsèque d'afficher,même d'une manière potentiellement très significative,des milliers de points sur un écran, si les propriétéstopologiques (structures, voisinages, proximités,...) dévoiléespar les techniques de visualisation ne peuvent être associéesà des caractéristiques liées au contenu des documentsainsi représentés ? Si l'on considère par exemple lareprésentation de similarités sous la formes de proximitésgéométriques, il n'est ainsi pas très utile de savoirvisualiser des regroupements entre documents, si l'on ne dispose pas parallèlementde moyens permettant de caractériser, de façon textuelle,le contenu synthétique des classes de documents ainsi identifiées.Les techniques de structuration automatique d'ensembles de documents poursuiventainsi deux grands types d'objectifs:
Retour à la table des matières
 

Extraction automatique de connaissances à partir d'une base dedocuments

L'information obtenue par la visualisation et/ou la structuration d'une base de données textuelles ne constitue qu'une des facettes de la connaissance implicitement contenue dans un ensemble de documents. Pour cette raison, un des objectifs du Text Mining est également de proposer des techniques permettant l'extraction d'informations implicites, présentes de façon diffuse dans la base documentaire (i.e. distribuéessur plusieurs documents). L'intelligence artificielle s'est posé un problème similaire dans le cas des bases de connaissances en se fixant pour objectif de développer des formalismes de représentationsuffisamment compatibles avec les techniques de raisonnement automatique pour permettre la dérivation automatique, à partir d'une base de connaissances, de l'ensemble des informations qui en sont logiquement déductibles. Dans la pratique, cet objectif s'est avéré irréaliste pour des applications impliquant des volumes importants de connaissances. De ce fait, la production automatique, à partir des documents contenus dans une base textuelle, de structures logiques sophistiquées qui pourraient servir de support pour l'extraction des connaissances n'est pas une hypothèse envisageable dans l'état actuel des recherches. Pour cette raison, les différents travaux d'extraction de connaissances dans le domaine du Text Mining s'intéressent à des classes particulières de connaissances pour lesquelles des algorithmes de traitement, opérationnels dans le cas de volumes de donnéesde taille importante, peuvent effectivement être proposés.Un exemple caractéristique de classe de connaissances souvent envisagéeest la classe des pseudo-implications qui décrivent d'une façon symbolique les différentes corrélations entre mots dans les documents. Plus précisément, la définition des pseudo-implications repose sur la notion d'ensemble fréquent. Par ensemble fréquent, on entend tout ensemble de mots apparaissant dans les structures d'indexation d'une base de documents avec une fréquence supérieure à un seuil fixé a priori. L'intérêt de la recherche de tels ensembles dans une base de documents est qu'ils permettent l'extractionde corrélations entre ensembles de mots (voir l'encadré pseudo-implications en ci-après) que l'on peut interpréter comme des implications probabilistes .
 

Un exemple concret d'extraction de pseudo-implications (aussi appelées associations) est le travail réalisé par l'équipe deR. Feldman à l'université de Tel Aviv sur un corpus de plusde 22'000 dépêches de l'agence Reuter. Dans ce travail, les documents ont été préalablement indexés parun vocabulaire de 135 mots-clés (essentiellement du domaine de l'économie) et, parmi les associations produites par le système de Text Mining mis en oeuvre, on peut citer par exemple:
 

{Iran, Nicaragua, USA} ->{Reagan}
ou
{gold, copper} ->{Canada}.

Les techniques d'extraction de pseudo-implications, intéressantes en tant que telles pour identifier de façon automatique les associations implicitement présentes dans un base de textes, peuvent de plus être sophistiquées de plusieurs façons:

Retour à la table des matières

Conclusions et perspectives

La croissance du volume des données stockées dans les différentssystèmes informatiques est aujourd'hui telle que seule une proportion extrêmement réduite de ces données (typiquement entre 5 et 10%) peut être effectivement analysée et donc exploitée. La mise en place de techniques d'analyse automatique, permettant en particulier de mettre en valeur de façon plus efficace les gisements potentiels d'information que représentent les bases de données textuelles, correspond donc, non seulement à un défi scientifique et technique passionnant, mais également à un véritable enjeu économique, particulièrement crucial dans des domaines comme la veille technologique ou le suivi de brevets par exemple.

Les progrès continus réalisés dans des disciplines comme la recherche documentaire, l'analyse de données et le traitement automatique des langues naturelles ont conduit à la réalisation de systèmes proposant des fonctionnalités relativement simples, mais opérationnels dans des conditions d'exploitation réelles (volumes de données importants, données textuelles extrêmement variées). De plus, la synergie croissante entre les différentes techniques spécifiques (analyse lexicale et syntaxique, mesure desimilarités entre documents, structuration automatique,...) développées dans les disciplines concernées permet également d'envisager, à court et moyen terme, la mise au point de prototypes de systèmes de gestion de l'information textuelle offrant des possibilités de traitement étendues (meilleure représentation des contenus,sensibilité aux spécificités des utilisateurs,...).Beaucoup des problèmes (algorithmiques ou conceptuels) rencontrés demeurent intrinsèquement complexes et nécessitent encore la découverte de solutions théoriques satisfaisantes. Cependant, le travail de recherche accumulé dans les différentes disciplinesa aujourd'hui atteint une masse critique suffisante pour permettre la réalisation de techniques suffisamment performantes pour la mise en place effective d'applications.


retour au sommaire du Flash informatique spécial été 97 
retour à la page principale des Flash informatique 
Vos commentaires 
© FI SPECIAL ETE du 2 septembre 1997