Réseaux Humains / Réseaux Technologiques, journées d'étude de l'Université de Poitiers

Vous êtes ici :

De l’accès à l’information à sa représentation : l’analyse de données textuelles

Table ronde : L’intranet pour organiser l’accès à des ressources diffuses et dispersées

Par Marie-Hélène Antoni

Publié en ligne le 30 août 2006

Résumé : Nous ne sommes plus à l’époque de la rareté ou de l’accès difficile à l’information mais bien en un temps d’abondance. On confond souvent information disponible et information utile ! « Comment transformer des données textuelles disponibles en information utile ? ». Telle est la question posée et développée par étapes rigoureuses où les données textuelles sont envisagées selon différents points de vue. L’information susceptible d’être diffusée, d’être « utile » passe par toutes sortes de représentations, de structurations. Aucun de ces traitements ne peut prétendre exprimer l’information « objective ». Toute l’information est « construite ». Une métaphore, utilisée par l’auteur, introduit à la complexité du fonctionnement de l’information, c’est celle de la carte pour préparer un voyage. Le voyageur peut successivement (pour un même territoire) consulter la carte des autoroutes, celle des randonnées ou de la gastronomie…

Sommaire

Introduction
Disponibilité de l'information textuelle
Un objet partagé : le document
Polarisation du rapport à l'information
Représentation de l'information
Indexation
De la représentation à l'appropriation : mise en œuvre de ces outils dans le cycle de vie de l'information

Introduction

Les termes retenus ici, positionnant l'analyse des données textuelles entre les problématiques de l'accès à l'information et celle de sa représentation, et par suite de sa représentation mentale, inscrivent bien cette présentation entre l'intervention précédente qui, elle, est beaucoup plus axée sur des problématiques d'accès à cette information, de sa mise à disponibilité physique, et l'intervention suivante, axée sur la construction de connaissances. En effet, une fois l'information rendue disponible physiquement, il faut arriver à en extraire la « substantifique moelle », à en construire une représentation, afin de pouvoir l'exploiter, à un titre ou un autre. A l'état brut, un gisement de données textuelles n'est en effet pas de l'information : il reste un gisement de données textuelles, qu'il s'agisse d'un tas de papier dans une pièce, d'une masse de données sur un disque dur, peu importe, la question de l'organisation et de l'exploitation est primordiale. Nous verrons ici ce qui s'est modifié en termes de disponibilité de l'information, et nous présenterons quelques éléments de réponse à cette question : comment transformer des données textuelles disponibles en information utile ?

Disponibilité de l'information textuelle

Les points qui ont fondamentalement évolué, affectant notre rapport même à l'information, concernent sa disponibilité. On peut ainsi décrire la situation antérieure comme une situation de pénurie, basée sur la difficulté d'accès aux sources. Cette difficulté a elle même des origines diverses, coût de production d'un ouvrage, coût du transport et de distribution, problèmes de stockage, exercice de la censure, censure politique ou intellectuelle visant à perpétuer une certaine « orthodoxie » … tous éléments contribuant à ce que les informations aient une diffusion restreinte, confidentielle. Dans un tel contexte, la valeur de l'information se trouvait étroitement liée à cette notion d'accès, et avait engendré toute une culture de l'espionnage, que l'on trouve encore parfois dans certains milieux spécialisés dans le commerce de l'information. Aujourd'hui, on est dans un contexte très différent. La modification radicale des conditions de production, de stockage et de diffusion matérielle de l'information l'ont rendue peu coûteuse et la plupart de l'information dont nous avons besoin est publique. Il est beaucoup plus facile de créer des documents avec des logiciels de traitement de texte, pour ne citer qu'eux, que de fabriquer un parchemin. Il est extraordinairement simple de cliquer sur la touche « envoyer », et ce à de multiples destinataires, bien plus simple que d'imprimer 100 volumes d'un même ouvrage, les envoyer par train et les mettre à la disposition des lecteurs. Les solutions apportent parfois les problèmes : plus il est facile d'émettre des documents et plus nous en recevons, plus les outils permettent d'unifier les formats et plus les formats foisonnent, plus nos capacités de stockage augmentent, et plus on a de choses à stocker : cette situation n'est certes pas propre à l'environnement informatique ; c'est un problème qu'on peut avoir chacun chez soi sur ses étagères de bibliothèque et qui devient dans le cas des intranets absolument délirant. Aisément disponible, pléthorique, envahissante : la difficulté essentielle est aujourd'hui de faire le tri.

La première des conséquences est le déplacement de la valeur de l'information, alors même que l'on reste dans une problématique comparable : trouver la bonne information pour prendre la bonne décision. La disponibilité des sources n'a pas modifié notre rapport à l'information comme on s'y attendait : on avait l'impression que l'accessibilité croissante, une censure moindre, seraient en soi la réponse à ce désir : une plus grande facilité à trouver ce dont on a besoin pour faire les bons choix, pour être informé justement. En réalité, il semble que la problématique se soit un peu déplacée, et que la déclinaison commerciale de ce qui est devenu un « produit » parmi d'autres a eu des effets inattendus, car s'il est vrai que l'information circule bien plus librement, ce à quoi la démocratie et la liberté de penser trouvent grand bénéfice, il est bien plus difficile de réguler la circulation de l'information, ou même de valider, de qualifier l'information disponible. Ouvrages auto-publiés, mémoires des étudiants sur le réseau, contenu des chats et des mails n'engagent que la responsabilité de leurs auteurs, mais peuvent se répandre exactement dans les mêmes conditions que des textes amenés à « faire référence ». Les conditions antérieures de production et la multitude des filtrages imposés avaient sans doute, au moins parfois, l'inconvénient de la censure, mais l'avantage de la validation. Aujourd'hui, la méthode la plus efficace pour cacher une information semble être de tout simplement la noyer dans une masse contradictoire. Le secret n'est plus forcément un joyau dans une chambre forte, mais un brin de paille rendu invisible dans une grange.

Dans le contexte des intranets, c'est un peu moins douloureux que sur internet, mais on se trouve clairement confronté à un nouveau rapport au document et à ses usages : on doit établir une distinction fondamentale entre l'acquisition de l'information, et l'organisation d'un savoir, d'une compétence, d'une connaissance ; on est amené à repenser les liens qui peuvent exister entre la disponibilité de l'information, et puis ce qui relève de sa structuration et de l'exploitation de son contenu.

Un objet partagé : le document

Il s'agit bien du simple réaménagement d'une problématique qui n'est pas neuve. Ce qui rend la situation particulièrement attrayante, c'est que la mise en place de ces intranets et l'évolution de ces technologies touchent effectivement un peu tout le monde, et un nombre de communautés considérable, qui n'avaient pas auparavant l'occasion de se rencontrer.

On peut citer les mondes des bibliothèques et de la documentation, qui, étant donné leur différence de positionnement par rapport au lectorat, sont traditionnellement en opposition : là, ils se retrouvent souvent sur la même ligne, c'est dire à quel point les choses sont amenées à bouger ; on voit la mise en place de conférences telles que CIDE, la Conférence Internationale du Document Electronique, évoquant conjointement avec la CIFED les différents problèmes liés au format électronique, en mode image ou texte, et les modalités de leur mise à disposition. Sont concernés aussi les mondes de l'édition et de la critique littéraire, (on peut évoquer ici des travaux menés au LORIA, conjointement souvent avec l'INaLF, l'Institut national de la langue française).

A ces univers, que l'on associe traditionnellement à l'idée de « document », viennent s'ajouter des communautés issues de l'analyse de données (parfois appelée « datamining », pour certaines de ses applications) appliquée au texte (d'où le mot de « textmining », que l'on rencontre parfois). On peut penser ici à des conférences telles que les JADT, Journées d'analyse de données textuelles, où se rencontrent statisticiens, informaticiens et littéraires, aux journées organisées par la SFBA, Société française de bibliométrie appliquée, où se rencontrent des univers tels que l'INIST (Institut National de l'Information Scientifique et Technique) et le CEDOCAR (Centre de Documentation des Armées), ou encore les après-midi organisées par l'Ecole des Hautes Etudes, (l'ADEST) : il s'agit d'appliquer des outils du même type, sur des données particulières aux sciences sociales. Dans tous ces cas, on peut associer à des traitements statistiques de l'expertise linguistique, et l'on rencontre alors une autre communauté, celle du traitement du langage naturel. Il s'agit là d'associer des informations linguistiques au document original, afin d'en représenter le contenu pour l'indexer, pour le traduire, pour le diffuser, etc. Enfin, on évoquera le monde des producteurs de bases de données, et leurs constantes évolutions avec la gestion électronique de documents qui se tourne peu à peu vers la gestion électronique de contenus.

On pourrait encore évoquer tel ou tel aspect lié à l'apprentissage et à la modélisation de connaissances par exemple, mais tel n'est pas le propos. On aura bien perçu la diversité des approches d'un seul et même objet : le document. C'est sur cette diversité de points de vue que se base le DESS, ouvert à la rentrée 2000 au sein de la Faculté Lettres et Langues de Poitiers : « Traitement et valorisation de l'information textuelle ».

Polarisation du rapport à l'information

Le document est donc un objet partagé, mais les points de vue vont concerner de nombreux aspects liés à ce seul objet, ils vont être radicalement différents voire contradictoires, et il ne s'agit pas ici de les couvrir tous : nous allons maintenant recentrer le propos sur les problématiques de contenu. Là encore, les points de vue vont être variés. Pour simplifier, on peut créer une tension polarisatrice et imaginer quels seraient les points de vue (artificiellement) radicalement opposés.

L'une des visions, que l'on pourrait dire patrimoniale, va privilégier la durée, la préservation d'un fonds, l'objectif est la pérennisation d'un patrimoine. La plus- value va être liée à la capacité d'accumuler toujours plus d'information sur un même thème. Dans ce cas, on va procéder par incrémentation, la richesse de l'information va reposer sur le fait de continuer à alimenter cette information, indiquer de la littérature secondaire, créer des liens vers d'autres sites qui parlent de la même chose. On cherche une augmentation constante de la masse d'informations disponibles sur un sujet donné. La notion de pérennité ne concerne pas le seul objet matériel mais aussi la validité des contenus. Ce qu'on vise, c'est que des documents qui viennent du deuxième millénaire avant Jésus-Christ, soient disponibles de façon intéressante au troisième millénaire après Jésus-Christ. De ce point de vue, les nouvelles technologies sont extrêmement précieuses, tant pour ces deux premiers points (pérennisation et incrémentation) que pour le dernier aspect : atteindre le plus large public possible. A ce titre, elles sont utilisées par les instances publiques dans le cadre de projets mis en œuvre par de très grandes bibliothèques telles que la Bibliothèque Nationale de France, la Bibliothèque Municipale de Lyon, ou encore des projets tels que ceux qu'on trouve à Poitiers dans le cadre du 12ème contrat de Plan.

A l'autre extrémité, on a la perspective de la « veille », où la valeur ajoutée à l'information est liée à une toute autre capacité, celle de la filtrer, l'éliminer, l'écrémer, et ce le plus rapidement possible : il faut en capter immédiatement la substance, qui peut-être n'est essentielle que l'espace de quelques heures, le temps de prendre une décision stratégique, et dans ce cas-là, peut-être qu'il n'y a qu'un lecteur, le décideur.

Si l'on peut effectivement opposer des pratiques du document, de l'information, sur ces trois axes que sont la durée, la valeur et le lectorat, les contraintes et les outils qu'on rencontrera pour atteindre ces objectifs sont très largement comparables. Nous nous concentrerons sur l'un des aspects : étant donné la masse extrêmement volumineuse de l'information disponible, on est amené à la réduire, au sens où on cherche à en faire une maquette, un peu comme une petite maquette de bateau qui serait plus facile à observer, à manipuler, qu'une flottille de ces mêmes bateaux. On cherche à le faire en respectant une autre contrainte : le maintien de la richesse de cette information. En effet, on veut la rendre maîtrisable, mettre en œuvre des processus de réduction, et néanmoins, on essaie de perdre le moins possible de l'information disponible.

Représentation de l'information

Afin de pouvoir procéder à ses opérations de représentation de l'information, on crée des ensembles documentaires homogènes, des corpus. Ces ensembles de documents vont alors être soumis à analyse.

« Réduction » et maintien de la richesse de l'information.

Cette analyse va intervenir à différents niveaux : on peut au moins distinguer deux différents types d'apparence informationnelle, celles qui relèvent de l'organisation, de la structure du contenu, et celles qui relèvent de l'expression de ce même contenu. Celles qui étudient la structure de l'information, vont par exemple détecter les zones de publicité, les zones de titre, les liens, les ancres (en utilisant par exemple le codage html). Celles qui explorent ce qu'il est convenu d'appeler le contenu, vont traiter de l'ensemble des « mots » accessibles, les chaînes de caractères qu'on va chercher à indexer. On aura l'occasion de revenir plus en détail sur diverses modalités d'indexation, ainsi que sur les outils permettant de le faire : globalement, ils reposent sur différents croisements de deux types de stratégie, fondées ou non sur une expertise statistique, fondées ou non sur une expertise linguistique. De toute façon, pour ne pas perdre la richesse informationnelle des documents, il est nécessaire de s'interroger sur ce qu'est la richesse informationnelle d'un document, et cette question-là est très délicate.

Calculer la richesse lexicale : lexicométrie

Les outils dont on dispose proviennent d'un domaine appelé « lexicométrie », mesure du lexique, issu de pratiques ancestrales, que sont l'indexation et la concordance. Il s'agit du recensement des vocabulaires, le vocabulaire biblique par exemple, et de la description de l'environnement des mots, la concordance de la poétique du XVIème siècle. On a là une longue pratique et les premiers outils d'analyse de données textuelles développés intègrent cette dimension. Elle a été associée à l'analyse linguistique quantitative, basée sur l'exploitation informatique des comptages d'occurrences de mots. Ces outils se sont développés à partir des années 50-60, aussi bien en Suisse qu'au laboratoire de l'Ecole Normale Supérieure de Saint-Cloud, dans des problématiques d'analyse de discours et principalement d'analyse de discours politiques. Pour évoquer simplement les problèmes auxquels on a à répondre, dès lors qu'on aborde la notion de richesse du vocabulaire, on peut poser au moins trois questions :

« Pourquoi partir du principe qu'un vocabulaire étendu est un vocabulaire plus riche ? ». On a là l'héritage d'une problématique bien française, associant la maîtrise d'un certain vocabulaire à des notions telles que l'intelligence un statut social valorisé. De ce point de vue, l'œuvre de Marguerite Yourcenar (et même de la plupart des auteurs) serait donc beaucoup plus riche que celle de Racine. De plus l'étendue du vocabulaire peut être tout à fait hors de propos : dans le cadre de l'exploitation d'information sur des notices pharmaceutiques, la richesse n'est certainement pas celle de l'étendue du vocabulaire.
« Peut-on assimiler variété lexicale et densité conceptuelle ? ». Existe-t-il un lien entre la capacité à mobiliser beaucoup de synonymes, à utiliser un vocabulaire très riche, et la richesse d'un propos ? Autrement dit, que mesure-t-on réellement lorsqu'on mesure le vocabulaire ? Comment intégrer des dimensions telles que la richesse stylistique, et la richesse conceptuelle ?
« Qu'est-ce véritablement que la richesse ? ». Etre intéressant et riche, est-ce coller au mieux à un modèle ? Est-ce répondre parfaitement à un objet fini, être l'instance parfaite, la plus représentative d'un objet donné, ou bien au contraire la richesse est-elle une distance ? être riche, est-ce être profondément innovant, profondément original ?

Construction de l'information

Enfin, la question est de savoir à quelle fin on veut synthétiser une information. Il n'existe pas un « bon » résumé indépendamment de tout. Et les choix qu'on fera pour réduire l'information reposeront entre autres sur la représentation mentale de la tâche qu'on a à accomplir. Pour quoi faire ? Et en effet la question qu'il faut garder à l'esprit pour déterminer le bon niveau et le bon type de réduction de l'information qu'on veut mettre en place, c'est ce qui va conditionner la sélection des index. Alors quelle que soit l'automatisation de ces tâches, quel que soit l'algorithme statistique qu'on va mettre en place, quelle que soit la fonction indexatrice qu'on va utiliser, il n'y a pas une seule objectivité de la représentation de l'information, mais bien construction de cette représentation. Pour faire un travail utile, il semble indispensable d'être conscient à la fois que la représentation de l'information, même statistique est une construction parmi d'autres, et que selon les objectifs à atteindre, toutes les représentations ne se valent pas. Curieusement, il semble que ces points soient souvent ressentis comme polémiques, comme si les soulever remettait en cause la « véracité », l'objectivité des synthèses proposées. Pourtant, tout un chacun est bien en mesure de se procurer différents types de cartes pour préparer un voyage : une carte des autoroutes, puis une carte touristique détaillée avec informations gastronomiques, et une carte de randonneur, par exemple. Les cartes ne sont pas fausses. Le sens n'est pas donné, il est construit.

Indexation

L'indexation est une opération bien connue, mais qui recouvre des pratiques d'une grande diversité. La création d'index tels que les index bibliques a été évoqué, la pratique la plus connue est celle qui nous permet de retrouver un livre sur les rayons d'une bibliothèque en consultant un fichier où les documents sont référencés et décrits par … quelques index.

Ici, la définition retenue sera le plus général possible :

« Représentation de notions présentes dans un document à l'aide d'expressions extraites d'une liste limitée ou non, contrôlée ou non » ;
« Représentation de notions » nous situe bien au niveau de la construction (fut-ce par extraction) de sens ;
« Expressions » autorise les expressions linguistiques, lexicales ou notionnelles, rendues par des mots simples ou composés, comme par des expressions codées d'autres types ;
« Extraites d'une liste fermée ou non » permet de préciser si le choix des index est laissé à l'imagination de celui qui les pose ;
« Contrôlée ou non » renvoie à la notion de thésaurus, et à l'idée que les index disponibles peuvent être plus qu'une simple liste de mots, mais un ensemble structuré pour rendre compte d'un domaine particulier.

Cette définition nous permet donc de rendre compte de la diversité des pratiques manuelles de l'indexation, mais aussi des pratiques informatiques, qui peuvent aller du simple recensement de chaînes de caractères contenues dans un document à la construction d'un réseau sémantique. Dans le cas présent, la question qui nous occupe est : quelle méthodologie de l'indexation doit-on retenir :

faire la liste des chaînes de caractères disponibles dans un document n'est pas en soi une représentation sémantiquement pertinente, quelle que soit la tâche que l'on s'assigne,
faire appel à une experte chevronnée, qui possède parfaitement les index dont elle dispose et les relations sémantiques qui existent entre les unités, ne résout pas non plus la question : les coûts en argent et en temps ne sont pas compatibles avec la vie d'un intranet.

Indexation linguistique

Entre ces deux extrémités existent des outils qui permettent de faire ce qu'on appelle une indexation linguistique automatique (en tout cas assistée par ordinateur), qui va permettre de densifier l'information. Il s'agit dans un premier temps de simplement regrouper les chaînes de caractères pouvant avoir la même valeur du point de vue de l'indexation. En effet, d'un point de vue strictement informatique deux chaînes de caractères ne peuvent être qu'identiques ou différentes. Mangerions n'est pas plus distinct de manger, qu'il n'est distinct de ou, ce sont seulement deux chaînes de caractères différentes. D'un point de vue d'indexation sémantique cependant, mangerions et manger peuvent être assimilés l'un à l'autre, ou quant à lui pourrait être ignoré.

Quand on utilise des outils d'analyse linguistique pour mettre des index dits linguistiques, on va procéder à une densification des formes, on va tâcher de regrouper différentes chaînes de caractères distinctes sous un même index, sous une même étiquette : - toutes les formes possibles pour le verbe manger, - tout ce qui a trait à la nourriture. On peut distinguer :

les lemmes, index génériques linguistiques, les index sont des unités lexicales qui regroupent des formes graphiques (variantes orthographiques, formes conjuguées, et accordées, etc.),
les termes, index spécifiques à un domaine ou un corpus, les index renvoient plus à des concepts et sont caractérisés par leur nombre limité, et le fait que leurs relations sont structurées et explicites.

Dans tous les cas, les opérations effectuées peuvent être vues comme des regroupements hiérarchisés : diverses unités pointent sur une seule unité canonique de niveau plus « abstrait ». Par exemple, les formes conjuguées d'un verbe et ses variantes graphiques pointent vers le verbe à l'infinitif, ce qui permet de regrouper asseois, assieds sous asseoir ; ou encore des familles de mots, des dérivés, pointent sur la seule base commune, on regroupe nourrir et nourriture, enfin, on peut regrouper des choses comme poire et pomme sous le concept de FRUIT, etc.

Filtrages

Ces opérations de regroupement, de densification sémantique de l'information, ont bien sûr pour objectif d'éviter la « dispersion sémantique » des index. Mais ce n'est pas là le seul point : indexer, dans notre contexte, c'est bien représenter de façon concise. Or pour le moment, quelle que soit la façon dont on décide de faire ces regroupements, il est certain qu'on retrouve toujours beaucoup plus d'index que les 5 mots-clés de l'auteur qui sont prévus dans les abstracts. La question qui se pose est dès lors celle des filtrages. Ils seront essentiellement de deux types : linguistiques et statistiques.

les filtrages linguistiques se composent d'une part des regroupements de chaînes de caractères sous un même index, comme nous l'avons décrit, (selon les cas, la réduction linguistique peut réduire le nombre d'index par 10), et puis faire des tris sur les catégories, associées à ces index : on peut choisir de ne garder que les NOMS, ou que les FRUIT. On voit bien que ces filtres amènent une sélection « orientée » des descripteurs.
les filtrages de type statistique sont liés dans un premier temps à des problématiques de fréquence des descripteurs ; le vocabulaire très fréquent peut l'être à deux titres, soit parce qu'il appartient à la langue générale, par exemple les prépositions (de, à, pour), très présentes dans tous les textes, soit parce qu'il appartient au thème du corpus : à une requête sur les intranets éducatifs, tous les documents parleront des intranets éducatifs, et ce vocabulaire-là ne sera pas particulièrement pertinent pour continuer à explorer les données. D'un autre côté, la grosse masse du vocabulaire est si peu fréquemment attestée qu'il en devient non représentatif. Ces filtres statistiques grossiers permettent de réduire considérablement l'ensemble des descripteurs qu'on associera aux documents.

Synthèses thématiques

Lorsqu'on dispose d'index qui permettent de décrire, d'une façon ou d'une autre, le contenu des documents, on peut passer à la phase suivante de réduction : essayer de construire une image synthétique de l'information dispersée dans les documents, dégager en quelque sorte des cartographies thématiques. C'est généralement l'objectif que se fixent les outils d'analyse de données textuelles, en adoptant des stratégies assez variées. La plupart des outils logiciels recensés vont travailler à partir de ces listes d'index « réduites ». Selon les cas, la composante linguistique peut être plus ou moins forte. On peut pour ainsi dire distinguer trois cas de figure (même si dans la réalité tous convergent de plus en plus) :

les outils à l'origine essentiellement tournés vers l'analyse de données numériques, qui intègrent progressivement des modules « texte », on citera à titre d'exemple SPSS, SAS, SPAD,
les outils reposant dès l'origine sur des partis pris très forts d'analyse linguistique comme eTwat, leximine, weblex (http://www.ens-lsh.fr),
les outils faisant intervenir l'un et l'autre des composants, mais en ayant adopté, comme point de départ, les objectifs d'analyse des utilisateurs (ce qui est plus ou moins réussi) : hyperbase (http://www.unice.fr) alceste Umap prospero tropes lesphinx (http://www.lesphinx-developpement.fr) arisem.

Afin de dégager des « tendances thématiques », ces logiciels cherchent essentiellement à détecter des ressemblances entre des « unités textuelles ». Ces unités peuvent aller du groupe de mots au document, en passant par la phrase et cette définition de l'unité de base à analyser peut tout à fait être le critère de choix de tel ou tel outil. La mise en évidence des ressemblances repose sur l'implémentation de différents algorithmes statistiques. Ils sont généralement utilisés à des fins de classification (regrouper entre elles les unités qui se ressemblent) ou de catégorisation (ranger une unité dans la case qui lui convient le mieux). En faire la présentation détaillée est ici hors de propos, mais on peut citer (dans le désordre) ceux qui sont le plus souvent revendiqués : Chi2 - AFC (analyse factorielle des correspondances) - ACP (analyse en composantes principales) - ARD (analyse relationnelle des données), Loi hypergéométrique, Lois de Zipf & Pareto, Loi binomiale de Muller.

De la représentation à l'appropriation : mise en œuvre de ces outils dans le cycle de vie de l'information

Le cycle de vie de l'information peut se caractériser par trois phases : l'acquisition, le traitement et la rediffusion de l'information. Au cours de ces trois phases, la notion de mesure de ressemblance, de mesure de distance prend un sens particulier.

Acquisition

Il s'agit de retrouver l'information recherchée. La tâche peut être confiée à un moteur de recherche. L'objectif est de trouver, parmi l'information disponible, celle qui répond (au mieux) à la question, c'est à dire de rapatrier les documents qui « ressemblent » le plus possible à la question. On travaille sous une double contrainte : minimiser le silence, c'est-à-dire le nombre de documents pertinents qui n'ont pas été trouvés, et minimiser le bruit, c'est-à-dire le nombre de documents non pertinents qui sont rapatriés pour de mauvaises raisons.

Traitement et Analyse

C'est la phase qui a été évoquée pour présenter les logiques des outils : il s'agit de dégager ou de reconnaître des tendances thématiques. Quand on veut dégager des tendances, on est dans une phase dite « de découverte ». On peut comparer cette phase à une première opération de classement de livres lors de l'aménagement d'un nouveau bureau par exemple : quels livres mettre ensemble sur quelle étagère ? Puis vient une phase où il s'agit de ranger un nouveau livre sur la bonne étagère. C'est une phase dite « d'affectation ». La masse des documents étant toujours rapidement croissante, il est souvent nécessaire de procéder à des réajustements, soit par division d'un pôle qui devient trop important : distinguer dans le rayon « linguistique » les dictionnaires des livres de grammaire, soit par regroupements thématiques différents : extraire tous les livres de grammaire des rayons « anglais, allemand, chinois… ». La chose à faire peut être aussi de détecter qu'un élément nouveau trouve malaisément sa place dans la structure préexistante : on doit alors surveiller s'il s'agit juste d'un accident ou s'il s'agit du début d'un signal faible, indice d'une nouvelle tendance.

Diffusion

Lors des phases de diffusion, les circonstances dans lesquelles la mesure de distance a un sens relèvent généralement de la catégorisation, de l'affectation d'un document à une structure préexistante : on peut penser au routage ciblé d'information, dans le cadre de revues de presse par exemple, ou encore à l'alimentation automatique des bases de données sur un sujet précis.

Les techniques de représentation et de structuration de l'information concernent bien toutes les phases du cycle de vie de l'information. Leur objectif est de contribuer à transformer une masse d'information disponible en synthèse utile. Encore et toujours, il s'agit de trouver la bonne information pour prendre la bonne décision. Les modifications considérables des circonstances dans lesquelles ces opérations ont lieu affectent nécessairement les stratégies de circulation dans l'information et de construction des savoirs. Les problématiques d'accès ayant été pour beaucoup simplifiées, un nouveau champ d'investigation s'ouvre, concernant les nouvelles modalités d'appropriation des connaissances et de l'expertise, tant au niveau individuel qu'au niveau institutionnel.

Pour citer cet article : Antoni Marie-Hélène (2002). "De l’accès à l’information à sa représentation : l’analyse de données textuelles". Actes des Troisèmes Rencontres Réseaux Humains / Réseaux Technologiques. Poitiers, 19 mai 2001. "Documents, Actes et Rapports pour l'Education", CNDP, p. 29-39.

En ligne : http://edel.univ-poitiers.fr/rhrt/document478.php (consulté le 1/10/2019)

A lire aussi sur le même sujet

Introduction : l’intranet pour organiser l’accès à des ressources diffuses et dispersées. Par Alain Scoazec.

Lire l'article...
Etude de cas : l’intranet du Lycée Pilote Innovant, Jaunay-Clan (Vienne). Par Pierric Bergeron.

Lire l'article...
De l’accès à l’information à sa représentation : l’analyse de données textuelles. Par Marie-Hélène Antoni.

Lire l'article...
Les systèmes d’information en ligne : quels outils pour quels usages ?. Par Jean-François Rouet.

Lire l'article...
Débat : l’intranet pour organiser l’accès à des ressources diffuses et dispersées. Par Pierric Bergeron, Marie-Hélène Antoni et Jean-François Rouet.

Lire l'article...

n° 3

Outils :

Marie-Hélène Antoni

Maître de conférences, Université de Poitiers.
Tous ses articles

Mots-clés

A voir sur UPtv

De l’accès à l’information à sa représentation :

Vidéo de la table ronde : L'intranet pour organiser l'accès à des ressources diffuses et dispersées : Durée 1h 36 min.

Voir la vidéo...

Coordonnées :

Université de Poitiers
15, rue de l'Hôtel Dieu - 86034 POITIERS Cedex - FRANCE
Tél.: (33) (0)5 49 45 30 00 - Fax : (33) (0)5 49 45 30 50
http://edel.univ-poitiers.fr/rhrt - rhrt@univ-poitiers.fr

Haut de page