Du thésaurus classique au thésaurus évolutif

Du thésaurus classique au thésaurus évolutif.

Première étape de l'éducation d'un assistant documentaliste artificiel.

Maurice Clerc

France Télécom.

12 av. de Chevêne

74988 Annecy

Tél. : 04 50 88 75 56 - Fax : 04 50 88 72 81

Courriel : Maurice.Clerc@WriteMe.com

Résumé

On utilise la méthode des recommandations pour éduquer de façon incrémentale une intelligence artificielle à espace cognitif déformable, à partir de trois sources d'information : un thésaurus classique, le comportement de l'utilisateur et les éventuelles directives du documentaliste. Le résultat est un système interrogeable répondant comme un thésaurus non seulement pondéré (affectation d'un coefficient de pertinence aux entrées proposées) mais aussi adaptatif (la pondération se modifie en fonction de l'usage). Cette adaptation peut être soit juste transitoire (limitée à une session de travail), ou, au contraire, pérenne. Dans ce cas on parlera plutôt de thésaurus évolutif : il se modifie de lui-même pour mieux répondre aux besoins ultérieurs. La seconde étape de l'éducation consistera à faire traiter directement un corpus en langage régulier (espéranto).

1. Introduction

Thésaurus pondérés, adaptatifs, dynamiques, flous, indexation automatique, etc., tous ces termes font référence à un domaine de recherche déjà ancien et toujours très actif : l'extraction, la mise en forme et la présentation pertinente de la substantifique moelle d'un corpus de textes à l'aide de l'informatique (cf. par exemple, parmi bien d'autres, [Radecki T. 1976; Miyamoto S. 1990; Paijmans H. 1993; Bourigault D. 1994; Jae-Yun L. 1994; Kwon O.-W.Kim M.-C. et al. 1994; Ibekwe F. 1995; Bruandet M.-F. 1996; Kahng J.,McLeod D. 1998]). Cet article présente la toute première étape d'un travail visant à valider (ou à infirmer !) le bien-fondé de l'utilisation d'un nouveau modèle de représentation des connaissances pour réaliser un assistant documentaliste artificiel. Avant de lui faire lire et analyser l'ensemble du corpus, on commence par vérifier qu'il est capable de bien tirer parti des outils documentaires déjà existants, par exemple un thésaurus.

Si l'on ouvre un thésaurus classique [Encyclopædia Universalis 1969] à l'article dauphin, on y trouve, présentés en ordre alphabétique, des renvois vers les rubriques bionique, cétacé et pélagique. Aucune suggestion sur ce qu'il conviendrait de regarder en premier. Comme l'écrit l'éditeur "Si le classement des articles dans le corpus est alphabétique, c'est qu'un tel ordre présente l'avantage d'être absolument dénué de sens intrinsèque. Il ne saurait donc affecter en rien ni les textes ni le lecteur.". Mais cette neutralité n'est qu'un leurre. En réalité, pour qui pourrait appréhender d'un coup l'ensemble du thésaurus, avec ses multiples renvois parfois cycliques, l'organisation des liens serait révélatrice d'un classement de pertinence dû au concepteur(s), de façon consciente ou non.

D'où l'idée d'éduquer une intelligence artificielle (IA), ici à espace cognitif déformable (ECD) en lui faisant simplement lire un tel thésaurus, et d'examiner comment elle organise d'elle-même les relations entre les articles, en l'occurrence par le biais d'"énergies de transition" pour passer de l'un à l'autre. En appliquant à ces énergies de transition une fonction décroissante, on peut alors en déduire des pondérations de pertinence.

Ces pondérations reflètent la structure même du thésaurus. Rien ne dit cependant qu'elles satisferont tous les utilisateurs, ou le même utilisateur d'une session de consultation à une autre. Or, pour une rubrique (un article) donnée, une liste pondérée de renvois peut être interprétée comme une représentation floue de cette rubrique [Clerc M. 1995b; Clerc M. 1995a]. Il est donc naturel d'essayer d'adapter cette représentation à la "vision du monde" de l'utilisateur. Son comportement est alors observé, c'est-à-dire que chaque choix dudit utilisateur est considéré comme l'expression d'une préférence, à charge pour le système d'en tenir compte pour déformer son espace cognitif, et, partant, de recalculer des pondérations.

Dans la version actuelle de l'IA utilisée, appelée P'tit Bert, ces adaptations sont soient limitées à la session de travail en cours, soient mémorisées de façon permanente. Il n'y a qu'un seul espace cognitif en ligne à la fois, utilisé par chaque utilisateur, et modifié par tous. Mais, à condition de disposer de ressources informatiques suffisantes, rien n'empêche d'affecter à l'IA des espaces cognitifs personnalisés en simultanéité apparente (choisis selon les utilisateurs) et donc d'en déduire des pondérations également spécifiques.

Les principes généraux des ECDs font l'objet d'une autre présentation[Clerc M. 1998] : ils seront ici juste succinctement résumés, sous une forme restreinte adaptée au sujet traité. Ensuite, pour illustrer les techniques utilisées, j'ai choisi de travailler sur un exemple très simple, à savoir un sous-réseau de termes issus récursivement sur trois niveaux d'un seul terme initial. La discussion des résultats obtenus bute sur un écueil inattendu, à savoir qu'il n'y a pas consensus sur ce qu'est un "bon" thésaurus (évaluation absolue)[Chen H.Schatz B. et al. 1995], ni même sur les critères de comparaison d'un thésaurus à un autre (évaluation relative). Dans la mesure où le système n'est pas encore suffisamment développé pour procéder à une véritable enquête de satisfaction auprès d'utilisateurs, il s'agira donc essentiellement de commentaires personnels (évaluation subjective). Enfin, j'indiquerai l'état d'avancement du projet, et les prévisions, vers un système "intelligent" d'aide aux documentalistes.

2. Principes d'éducation de P'tit Bert

Au départ notre IA ne sait rien. Ce qui est appelé son espace cognitif est l'ensemble (fini et numéroté) de tous ses états possibles, structuré par les énergies de transition d'un état à un autre. L'ignorance initiale se traduit par le fait que toutes les transitions (sauf celles d'un état vers lui-même, qui sont nulles) ont la même grande valeur.

À chaque nouveau terme lu dans le thésaurus, le système affecte ce terme comme désignation d'un de ses états, créant un état-concept. Pour simplifier la présentation, on identifiera chaque état-concept à sa désignation.

L'éducation de l'IA se fait par des recommandations floues du type "Après l'état i, l'état j est (plus ou moins) déconseillé/conseillé", qui, ici, ont simplement la forme (termei, termej, valeur), où valeur est conventionnellement prise entre -100% et 100%. Une telle recommandation est interprétée comme une demande d'augmentation ou de diminution de l'énergie de transition entre deux états-concepts. La modification effectivement réalisée (déformation) est fonction d'un paramètre de rigidité, lui-même modulé localement par la structure courante de l'espace cognitif résultant des déformations antérieures. Ensuite, la déformation est propagée de façon dégressive dans tout l'ECD, induisant aussi bien des augmentations que des diminutions des autres énergies de transition. De plus, on peut, en option, imposer que certaines inégalités de quasi-transitivité soient respectées [Bilgiç T. 1994; M. Clerc 1995b].

Précisons un peu comment se propage une déformation. Si, par exemple, une recommandation positive est émise "Après termei, termej est conseillé", alors des recommandations négatives sont générées pour tous les couples (termek, termej) avec k#j et (termei, termek) avec k#j. Inversement, mais dans une moindre mesure, une recommandation négative portant sur un couple (termei, termej) générera des recommandations positives pour les couples (termei, termek) avec k#j.

En pratique, à chaque fois que le système lit une entrée termei du thésaurus, il lit ensuite la liste des renvois {termei,1, termei,2 ... termei,n}. Il génère alors une suite de n recommandations de la forme (termei, termei,j, 100%). Ces recommandations, toutes de type positif, sont traitées, et l'espace cognitif déformé en conséquence.

Mais quel est le lien avec la pondération des renvois ? Dans son fonctionnement spontané "normal", l'IA P'tit Bert passe d'un état à un autre en fonction du flux d'énergie qui lui est fourni et de la structure de son espace cognitif (plus une énergie de transition est faible, plus la transition est probable). Ce cheminement pourrait être considéré comme une suite de préconisations, mais comme l'on veut aussi ici une vision globale, à partir d'un terme, des rubriques suivantes souhaitables classées par ordre de pertinence, on se contentera de transformer directement les énergies de transition en pondérations par une fonction décroissante. Le choix de cette fonction comportant une part d'arbitraire, les valeurs exactes trouvées ne sont pas importantes en elles-mêmes; ce qui compte c'est leur évolution, et les classements de préférence induits.

Il est important de remarquer qu'à partir de n'importe quel terme, tous ceux déjà mémorisés sont des renvois potentiels, mais évidemment, certains avec des pondérations très faibles.

3. Tout savoir sur les dauphins
3.1. Apprentissage initial

Partant du terme initial dauphin, nous nous demandons quel est l'ordre de consultation des différentes entrées le plus pertinent. Le tableau 1 montre ce qu'indique le thésaurus initial sur trois niveaux C'est ce que lit notre IA. Le tableau 2 montre l'évolution de la présentation des cinq renvois qu'elle considère comme les plus pertinents, au fur et à mesure de sa lecture. Le coefficient de rigidité, dans ce cas précis, a été fixé à une valeur moyenne (50%), définissant une IA ni trop butée ni trop versatile : elle prend en compte chaque nouvelle recommandation, mais partiellement, ce qui lui permet de ne pas trop oublier les précédentes. La fonction de transformation des énergies de transition en pondérations a été choisie de façon à exagérer un peu les variations, pour mieux mettre en évidence les phénomènes de restructuration, qui restent nécessairement faibles sur un exemple d'aussi petite taille.

Tableau 1. Thésaurus initial, à partir de l'entrée dauphin (trois premiers niveaux).

Niveau	Entrée Þ renvois (en gras si déjà rencontré)
1	dauphin Þ bionique cétacés pélagique
2	cétacés Þ membres pélagique
2	pélagique Þ limnologie océans_et_mers
3	membres Þ arthrites_et_arthroses coude épaule genou hanche main moelle_épinière os pied prothèses
3	limnologie Þ glace
3	océans_et_mers Þ abrasion_marine accumulations_marines acoustique aires_continentales_et_océaniques mer_d_Aral océan_Arctique océan_Atlantique océan_Austral mer_Baltique vie_benthique mer_de_Béring biocénoses canyons_sous_marins mer_des_Caraïbe_et_golfe_du_Mexique mer_Caspienne mer_Celtique côtes eau mers_épicontinentales eustatisme fosses_océaniques golfe_de_Gascogne glace hydrologie îles océan_Indien magnésium Manche manganèse mer_Méditerranée milieu mer_Noire mer_du_Nord océanographie océan_Pacifique pêche pélagique plaines_et_collines_abyssales pollution potassium précontinent profondeurs_océaniques ère_quaternaire répartition_des_flores_et_des_faunes mer_Rouge sédimentologie géologie_sous_marine courants_de_turbidité_et_glissements_sous_aquatiques

Tableau 2. Évolution des cinq items les plus pertinents après dauphin, en fonction de la lecture du thésaurus classique.

Nombre de termes mémorisés	Pondérations des renvois les plus pertinents (100=valeur maximale)
1	dauphin/100
4	pélagique/100 cétacés/99,6 bionique/99,2
7	cétacés/100 bionique/99,7 pélagique/98,3 membres/59 limnologie/58,7 océans_et_mers/58,5
64	cétacés/100 bionique/99,8 pélagique/97,5 limnologie/69,7 océans_et_mers/69,5 membres/68,3

On pourrait s'attendre à trouver la même pondération, au deuxième niveau, pour les trois termes, puisqu'à ce stade la structure ne permet pas encore d'accorder plus ou moins d'importance à l'un ou à l'autre. Cependant ils sont présentés à l'IA par ordre alphabétique, ce qui est déjà en soit un ordre de préférence (inverse, en l'occurrence), et elle en tient compte, puisqu'elle ne "sait" pas que cet ordre alphabétique est, conventionnellement, non significatif. Je n'ai pas voulu, volontairement, faire une version "spéciale thésaurus" de la fonction d'apprentissage; nous reviendrons sur ce point dans la partie 4 (Discussion). Notons d'ailleurs que cet effet s'estompe avec l'accroissement du nombre de termes mémorisés.

Il n'est pas inintéressant de détailler qualitativement ce qui se passe. La lecture des trois renvois de l'entrée dauphin génère trois recommandations :

1) (dauphin, bionique, 100%)

2) (dauphin, cétacés, 100%)

3) (dauphin, pélagique, 100%)

traitées dans cet ordre. Chaque recommandation est censée répondre à la question "Après l'état dauphin, quel est l'état souhaitable ?". L'IA interprète les recommandations 2 et 3 comme des correctifs par rapport à la précédente. C'est la dernière recommandation qui a alors le plus de poids, les précédentes n'étant pas tout à fait oubliées, du fait de la rigidité de l'espace cognitif.

À partir du troisième niveau, des préférences commencent à se dessiner. La figure 1 montre bien que les renvois bionique, cétacés et pélagique ne sont plus équivalents, même sans parler de pondération. La lecture de la recommandation (cétacés, pélagique, 100%) renforce indirectement (par propagation) le "poids" de cétacés, en diminuant l'énergie de transition à partir de dauphin.

Figure 1. Début de l'arborescence du thésaurus initial.

3.2. Adaptation à l'utilisateur

Le thésaurus pondéré évolue donc au fur et à mesure de la lecture du thésaurus initial. Mais parce que le traitement met en évidence des préférences cachées, il est tout à fait possible que l'utilisateur averti (documentaliste, par exemple) constate des pondérations peu pertinentes. Il lui est alors loisible de donner ses propres recommandations, pour corriger ces défauts, toujours sous la même forme simple, équivalente à dire "Après tel terme, tel autre terme est conseillé/déconseillé", par exemple (dauphin, bionique, 100%) En fait, il peut même anticiper, en donnant ses instructions avant même que l'IA n'ait lu les entrées correspondantes. On parlera selon le cas de directives explicites a posteriori ou a priori.

Par ailleurs, le système peut observer le comportement de l'utilisateur. S'il propose à ce dernier de consulter cétacés après dauphin et que c'est pourtant bionique qui est choisi, l'IA considérera qu'il s'agit également d'une recommandation du type (dauphin, bionique, valeur). Il s'agit alors d'une directive implicite.

Que la directive soit explicite ou implicite, le résultat sera ici la pondération suivante :

bionique/100 cétacés/80,3 pélagique/79 membres/47,3 limnologie/47 océans_et_mers/46,9

où l'on voit que les préférences de l'utilisateur ont sensiblement plus de force que celles, plus "statiques", déduites de la lecture du thésaurus initial.

4. Discussion
4.1. Avantages et inconvénients de l'apprentissage par recommandations

Il est évident que cette méthode donne des pondérations qui dépendent de l'ordre de lecture du thésaurus initial. En théorie, c'est un avantage : le choix de la première entrée est déjà l'expression d'une préférence, et il "suffit" de recalculer les pondérations à chaque interrogation. En pratique, le temps de traitement risque d'être inacceptable, comme, d'ailleurs, dans le cas de l'adaptation sur directives implicites. Un compromis serait peut-être de pré-calculer et mémoriser des pondérations correspondant à divers points d'entrée assez généraux (domaines).

Si N est le nombre de termes mémorisés, normalement, le temps de traitement d'une recommandation est de l'ordre de N2, puisque tous les éléments de la matrice des énergies de transition sont modifiés par la propagation. Cependant une option permet de limiter cette propagation, et la durée de traitement devient alors fonction linéaire de N. Les essais faits jusqu'ici montrent qu'évidemment les pondérations ne sont alors plus les mêmes, mais aussi que l'ordre des termes ne semble pas changer, ou très marginalement, pour des items ayant de toutes façons une faible pertinence. Dans ces conditions, l'adaptation en temps réel devient tout à fait réaliste.

En fait c'est le caractère incrémental de l'apprentissage qui est en lui-même ambivalent. Parce que l'on utilise ici une IA conçue pour un apprentissage ex nihilo valide psychologiquement (et, comme déjà indiqué, non spécialement modifiée), on bénéficie de la souplesse et du caractère intuitif de sa méthode d'éducation, par recommandations. En contrepartie, le résultat, à chaque instant, dépend de tout l'historique, au contraire des méthodes statistiques.

4.2. Qualité du résultat

Au vu de l'arborescence de la figure 1, il semble (bien que les test réalisés jusqu'ici n'aient pas de valeur statistique) qu'un accord puisse être trouvé sur le fait de ne pas proposer bionique en premier choix. Ensuite deux discours s'opposent. L'un disant "Puisque pélagique est accessible soit directement soit indirectement via bionique, c'est le plus important des trois termes". Et l'autre "Puisque cétacés renvoie ensuite de toutes façons vers pélagique, c'est ce terme qu'il faut consulter en premier". Tout se passe comme si notre IA tenait ce dernier type de raisonnement.

S'il s'avère que, statistiquement, c'est cependant le premier raisonnement qui est pertinent, il faudra alors modifier les règles de fonctionnement de l'IA. En pratique il y a un seul paramètre à changer, qui est d'ailleurs explicitement modifiable dans le "tableau de bord" du logiciel. Simplement dans ce cas on obtiendrait une IA "spécialiste es thésaurus", mais qui ne se comporterait plus correctement dans d'autres situations (apprentissage inductif, en particulier).

5. Avancement du projet et prochaines étapes

Nous avons donc pour l'instant juste un outil d'aide à l'utilisation d'un thésaurus, capable de nous dire, à chaque instant "Vous venez de consulter telle entrée, alors je vous conseille telles autres, dans tel ordre". Cependant il reste tributaire de l'existence préalable d'un thésaurus déjà constitué.

Très naturellement, la deuxième phase consiste à lui faire acquérir une connaissance nettement plus vaste, par la lecture directe de documents moins structurés. Le module de transformation du texte lu en série de recommandations est réalisé, et actuellement en cours de test. Pour ne pas risquer de confondre d'éventuelles difficultés conceptuelles avec d'autres qui seraient inhérentes au langage, le corpus traité est dans une langue exempte d'irrégularités, à vocabulaire semi-contrôlé, à savoir l'espéranto. Les premiers résultats permettent d'envisager une alternative constructiviste à l'analyse sémantique latente[Landauer T. K.,Dumais S. T. 1997].

Ensuite, il faudra pouvoir traiter une langue écrite "naturelle", qu'elle soit alphabétique ou idéographique (mais possédant une transcription alphabétique normalisée). Sous réserve que les ressources informatiques affectées soient suffisantes, on devrait alors disposer d'un véritable assistant documentaliste capable de conseiller dans le choix des lectures, s'adaptant à l'utilisateur et dont la compétence s'améliorera par l'expérience.

6. Remerciements

À Pei Wang, chercheur en IA, pour nos discussions sur une définition opérationnelle de l'intelligence et le raisonnement non axiomatique [Wang P. 1995]. À mon ami James Kennedy, psychologue, et à ses enfants, grâce à qui P'tit Bert acquiert quelques qualités typiquement "humaines"...et les défauts associés !

7. Références

Bilgiç T. (1994). Interval Valued Fuzzy Sets from Continuous Archimedean Triangular Norms. FUZZ-IEEE'94, Orlando, 1142-1147.

Bourigault D. (1994). Extraction et Acquisition des Connaissances à partir des textes. RFIA (Reconnaissance des Formes et Intelligence Artificielle), Paris, 397-408.

Bruandet M.-F. (1996). Construction automatique de thésaurus pour un système intelligent d'information : IOTA. Modélisation et capitalisation des connaissances à partir de textes, Université Paris-Sorbonne,

Chen H., Schatz B., et al. (1995). "Automatic Thesaurus Generation for an Electronic Community System." ACM Computing Reviews :

Clerc M. (1995a). Hierarchies of Fuzzy Sets for Adaptive Document Management. France Télécom. version 3.

Clerc M. (1995b). "Validité psychologique des représentations floues." InCognito (1): 3-5.

Clerc M. (1998). Principes des Espaces cognitifs déformables. JFA (Journées Françaises de l'Apprentissage automatique), (proposé).

Encyclopædia Universalis (1969). France.

Ibekwe F. (1995). Traitement linguistique des données textuelles pour la recherche des tendances thématiques. VSST'95, Toulouse, G. 3. Université Stendhal.

Jae-Yun L. (1994). An Imperimental Study on the Construction of a Dynamic Thesaurus. Master's thesis at the Department of Library and Information Science. Yonsei University.

Kahng J., McLeod D. (1998). Dynamic Classificational Ontologies: Mediation of Information Sharing in Cooperative Federated Database Systems. Cooperative Information Systems: Trends and Directions Ed. M. P. P. &. Schlageter. London, United Kingdom, Academic Press. 179-203.

Kwon O.-W., Kim M.-C., et al. (1994). "Query Expansion Using Domain Adapted, Weighted Thesaurus in an Extended Boolean Model." CIKM : 140-146.

Landauer T. K., Dumais S. T. (1997). "A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge." Psychological Review 104(2): 211-240.

Miyamoto S. (1990). "Information retrieval based on fuzzy associations." Fuzzy Sets & Systems 38(2): 191-205.

Paijmans H. (1993). "Comparing the document representations of two IR-systems: CLARIT and TOPIC." Journal of the American Society for Information Science 44(7): 383-392.

Radecki T. (1976). "Mathematical model of retrieval system based on the concept of fuzzy thesaurus." Inform. Process. and Management (12): 313-318.

Wang P. (1995). Non-Axiomatic Reasoning System. Exploring the essence of Intelligence. USA, Indiana University.