Principes des espaces cognitifs déformables

(dernière mise à jour : janvier 1998)

Auteur

Maurice Clerc, Les Aires, 74570 Groisy, France 
Courriel : <Maurice.Clerc@WriteMe.com>
 

RÉSUMÉ.


L'ensemble de tous les états possibles d'une intelligence artificielle (IA) forme un espace appelé ici "cognitif". On y définit une structure faible en donnant les règles de transition d'un état à un autre, à l'aide d'une analogie énergétique. Cette structure contraint le comportement spontané de l'IA soumise à un flux d'énergie variable, dont la modulation peut faire passer continûment de la déduction à des inductions (ou abductions) de plus en plus risquées. L'éducation de l'IA se fait par des recommandations floues élémentaires, soit données directement, soit déduites automatiquement d'une suite de stimulus, comme la lecture d'un texte. Les énergies de transition entre états sont alors modifiées, et les modifications propagées : l'espace cognitif de l'IA est déformable.


MOTS-CLÉS : intelligence artificielle, apprentissage, induction, espace cognitif déformable

I. En quelques mots ...

Un espace cognitif déformable (ECD) est un espace d'états. Les états sont ceux d'un système que, pour faire court, j'appellerai une IA (intelligence artificielle). Le principe du modèle est de proposer d'une part des règles de transition d'un état à un autre, et, d'autre part, des règles de modification (déformation) de la structure de cet espace. Autrement dit, il s'agit de règles comportementales et de règles d'apprentissage.

Le contexte de l'IA ne comporte que deux éléments variables au cours du temps : un flux d'une quantité appelée ici "énergie", et un stimulus correspondant (ou non) à l'un de ses états.

 À chaque instant, la structure de l'ECD est donnée par les énergies de transition minimales entre états. Intuitivement, on peut les voir comme des distances entre points d'un espace non euclidien, bien qu'elles n'en soient pas vraiment, au sens mathématique du terme.

 En utilisation, le fonctionnement est le suivant. À chaque instant l'IA i) incrémente son stock d'énergie en fonction du flux, ii) considère le stimulus entrant, iii)le met en correspondance avec un de ses états possibles, iv) recherche la "bonne" transition à partir de cet état, v) effectue la transition et met à jour (décrémente) le stock d'énergie.

 La déformation-apprentissage consiste à modifier les énergies de transition. Cela peut se faire en suivant des recommandations floues données par l'utilisateur ("Après l'état i, il serait bien d'avoir l'état j"), ou en auto-apprentissage (lecture de textes, par exemple). Une déformation donnée se propage de façon décroissante dans tout l'ECD (que l'on peut imaginer ici comme une sorte de "pâte à modeler"), en fonction d'un paramètre de rigidité. L'apprentissage est donc incrémental. Par ailleurs il n'est généralement pas totalement réversible. Des applications sont envisageables dans les domaines de la gestion documentaire [IBEKWE 95, LOPEZ DE MANTARAS 90, PAIJMANS 93] et des systèmes de décision [COX 97] , mais d'autres aspects intéressants pourraient être utiles en psychologie (simulation de stratégies d'apprentissage, formalisation de comportements définis par des termes comme "esprit souple", "faire le rapprochement", etc.) [GHIGLIONE 90, RATCLIFF 94] .

 Dans ce qui suit, je vais reprendre plus en détail les principaux points rapidement évoqués ci-dessus. Les quelques exemples donnés proviennent d'une simulation logicielle appelée P'tit Bert. Naturellement un tel programme informatique impose des limitations proprement techniques (en termes de temps de calcul et de capacité mémoire), mais permet cependant de bien mettre en évidence les atouts et les faiblesses du concept d'ECD et des modèles y faisant appel.

II. Principes généraux

A. Constitution et évolution d'un ECD, ou de l'art de l'éducation

Qu'est-ce qu'un état, pour notre IA ?. Pour un système rudimentaire, un état peut être simplement un mot. À un instant donné de la "vie" de l'IA, son ECD sera donc un ensemble de mots avec une structure guidant les transitions d'un mot à un autre. Mais un état peut aussi être quelque chose de plus compliqué, par exemple "la condition A est remplie ET la condition B est remplie", ou même "L'état-dans-lequel-je-suis-après-une-journée-harassante-etque-je-reçois-ma-feuille-d'impôt", etc.

 En fait il faut séparer ici le concept d'état, au sens abstrait et formel, de celui de sa signification (pour nous). Un état doit simplement pouvoir être identifié et nommé, par exemple par un numéro, mais on peut lui associer une "désignation", l'ensemble des deux formant un état-concept. Exemples : 1 <=> banane, 2 <=> 6 fois 7, 3 <=> jaune, 4 <=> 42.

 En apprentissage par recommandations (cf. ci-dessous), il est plus intuitif de travailler à l'aide des désignations ("Après l'état 6 fois 7, l'état 42 est très souhaitable"), plutôt qu'avec des numéros ("Après l'état 2 l'état 4 est très souhaitable") mais ce n'est nullement indispensable : on s'intéresse ici aux relations entre des entités (transitions entre états) et non aux entités elles-mêmes.

 Mais avant de préciser comment la notion d'ECD permet de formuler des règles d'éducation d'une IA, explicitons les hypothèses qui la sous-tendent.

B. Hypothèses de travail

1. Détermination

À chaque instant l'IA (le système) est dans un état donné.

 Pour banale et évidente que puisse sembler cette affirmation, il convient cependant de lui donner le statut d'hypothèse de travail, d'autant qu'il n'est pas sûr qu'elle soit respectée dans le monde réel [D'ESPAGNAT 85] .

2. Quantification du temps

Le paramètre "temps" prend ses valeurs dans l'ensemble des entiers naturels.

 En pratique, pour une IA donnée, ces valeurs sont souvent des entiers consécutifs. Mais ce n'est pas une obligation, et cette liberté de choix prend tout son sens lorsque l'on fait dialoguer plusieurs IAs : elles peuvent très bien évoluer dans des univers "parallèles" dont les seuls points de rencontre sont les valeurs de temps communes.

3. Pseudo-métrique

Pour tout couple d'états (i,j), il existe une énergie minimale de transition de i à j, et une énergie minimale de transition de j à i.

 Par ailleurs, si beaucoup de modèles cognitifs font usage d'une métaphore spatiale [CLERC 95, DEROGNAT 92, DUCH 94, EISLER 77, GIRAUD-CARRIER 94, HYMAN 67, LANDAUER 97, RIPS 73, SHEPARD 62, TANABE 93]  , souvent sous la forme d'une distance entre concepts dans un espace vectoriel, on notera qu'il ne s'agit pas ici d'une vraie distance (pas de norme sous-jacente, ni même de semi-norme). En fait, on ne s'intéresse pas du tout au caractère euclidien ou non de l'ECD, ni d'ailleurs à sa dimensionnalité.

4. Finitude

Le nombre d'états de l'IA est fini.

 Cette hypothèse nous permettra de travailler directement sur la matrice des énergies de transition entre états, plutôt que de calculer des longueurs dans un espace courbe.

5. Quantification de l'énergie

Toutes les valeurs d'énergies sont des multiples d'un même quantum.

 Ceci permettra de caractériser le comportement de type déductif comme étant celui observé sous le flux d'énergie minimum.

6. Ignorance

Au début de son existence, l'IA ne sait rien. Mais il y a deux sortes d'ignorance extrêmes possibles :

 - la confusion totale. Toutes les énergies de transition sont nulles, l'IA passe avec une parfaite facilité (au hasard) de n'importe quel état à n'importe quel autre.

 - l'obstination stupide. Toutes les énergies de transition sont à une même grande valeur, et l'IA passe avec la même difficulté (au hasard) de n'importe quel état à n'importe quel autre (en pratique, elle "boucle" longtemps sur chaque état).

Notons que si l'on s'intéresse aux désignations des états, à cette ignorance structurelle s'ajoute une ignorance sémantique : les états-concepts sont "vides".

 En fait, dire que l'IA ne sait rien n'est qu'un raccourci. Disons plutôt qu'elle n'a encore rien appris, et ne dispose que de quelques connaissances "innées", qui sont justement les règles d'apprentissage et de fonctionnement. Le but du jeu, si j'ose dire, est de minimiser ces connaissances innées.

C. L'éducation par recommandations

Formellement une recommandation est simplement une instruction d'augmentation ou de diminution d'une énergie de transition. Elle comporte trois éléments : l'état initial, l'état final, une valeur floue de la modification suggérée.

Exemples

 (banane, légume, très déconseillé). En langage clair "La transition de l'état-concept banane vers l'état-concept légume est très déconseillée".

 (9 fois 7, 63, très conseillé)

 (riche ET bien portant, prêt accordé, conseillé)

 L'éducateur de l'IA est donc amené à se poser quelques questions. Vaut-il mieux des recommandations positives (diminutions d'énergies de transition) ou négatives ? Comment choisir la valeur de la recommandation, même floue ?

 Les simulations montrent qu'une bonne tactique consiste à définir d'abord des "points d'ancrage" par des recommandations négatives (ex. "Un mammifère n'est pas un poisson" ou, plus formellement, (mammifère, poisson, très déconseillé)), généralement de façon symétrique, puis ensuite de donner des recommandations positives regroupant d'autres états-concepts autour de ces points d'ancrage (ex. (dauphin, mammifère, très conseillé)).

 En ce qui concerne les valeurs des recommandations, le système est plutôt robuste, et, on s'aperçoit que ce sont moins ces valeurs elles-mêmes qui comptent que leur cohérence (les relations d'ordre partiel).

D. L'auto-apprentissage

Le principe de l'auto-apprentissage est rudimentaire. C'est un parti pris, pour s'approcher le plus possible d'un apprentissage ex nihilo.

 Le système reçoit une suite de stimulus qui sont autant d'états possibles, par exemple les mots consécutifs d'un texte. On définit un empan d'observation de ces stimulus (correspondant à une mémoire à court terme), qui permet de définir de nouveaux états formés par les regroupements des stimulus en séquences de longueur au plus égale à cet empan. Enfin, on suppose que le fait d'avoir deux états en séquence correspond à une certaine recommandation positive (d'où la nécessité de partir d'une ignorance du type "obstination stupide").

 Exemple

 La séquence "Le chien est un mammifère" génère dans l'ordre, avec un empan de trois, les douze états-concepts suivants :

 le, chien, le chien, est, chien est, le chien est, un, est un, chien est un, mammifère, un mammifère, est un mammifère

 En même temps, des recommandations positives sont également générées : (le, chien, valeur), (chien, le chien, valeur), ..., (un mammifère, est un mammifère, valeur).

 La valeur est un paramètre du modèle. Faible, elle induit un apprentissage lent mais assez sûr, élevée, elle peut conduire à favoriser à tort des rapprochements erronés.

 Comme dans d'autres systèmes ne partant d'aucune connaissance a priori [LANDAUER 97] , seuls des rapprochements sont directement possibles (corrélations positives), les éloignements ne pouvant s'obtenir qu'indirectement, par défaut, pour ainsi dire. Par exemple le texte "Le faisan est peu intelligent" générera en fait par propagation (voir ci-dessous) un léger rapprochement des états-concepts faisan et intelligent.

 En pratique, cependant, dans les textes "didactiques" (comme les encyclopédies), les informations sont données majoritairement par des formulations positives et redondantes. Et donc une recommandation positive générée fautivement sera suffisamment contrebalancée par d'autres émises à bon escient.

E. Calcul et propagation d'une déformation

1. Les règles

Quand une recommandation élémentaire est donnée, l'énergie de la transition correspondante est modifiée, et cette modification-déformation est propagée dans l'ECD, le tout selon un paramètre de rigidité.

Règle de déformation

La variation de l'énergie de transition est fonction des trois variables (valeur de la recommandation, rigidité, énergie de transition initiale). La formulation exacte peut évidemment varier d'un modèle à l'autre, mais quelques contraintes doivent être respectées :

 - la déformation est du signe opposé de celui de la valeur de recommandation.

- la déformation est fonction décroissante de la rigidité.

 - si la rigidité est totale, la déformation est nulle.

Règle de propagation

Une fois qu'une énergie de transition est modifiée, toutes les autres le sont de proche en proche. Là encore, la formulation peut varier, dans certaines limites. On notera d'abord que toutes les transitions se répartissent en trois classes :

 - la transition dite "de base", sur laquelle porte la recommandation (classe 0),

 - les transitions de même origine que cette transition de base (classe 1),

 - les autres transitions (classe 2).

 Alors tout doit se passer comme si était appliquée une série de recommandations de valeurs absolues fonctions décroissantes de la classe.

 Pour le sens de la déformation à effectuer (augmentation ou diminution), on applique récursivement une sous-règle générale à tous les triplets d'états (i,j,k), où (i,j) est la transition de base, à savoir que les énergies de transition e(i,k) et e(k,j) doivent varier en sens contraire.

 Il s'avère que le choix consistant à faire varier e(i,k) dans le même sens que e(i,j) favorise des cycles de "raisonnement" plus longs.

 Enfin on peut, en option, considérer qu'il faut maintenir une certaine cohérence par le biais du respect d'inégalités triangulaires généralisées [BILGIC 94, CLERC 95] .

2. De l'oubli

Que se passe-t-il si l'on donne une recommandation puis immédiatement après la recommandation contraire ? Si les règles de déformations sont linéaires, on revient à la situation initiale. Mais ce n'est pas le cas général. Une recommandation erronée ne peut alors jamais être complètement "rattrapée", ce qui peut être un handicap, mais aussi une information n'est jamais totalement "perdue" (pour autant que le nombre de recommandations reste sensiblement inférieur au nombre total de couples d'états, c'est-à-dire de transitions possibles), ce qui peut être un avantage.

 Par ailleurs, si un état est suffisamment éloigné de tous les autres, on peut changer sa désignation sans inconvénient. On sort du modèle proprement dit, mais pour une simulation informatique, il est pratique de pouvoir réutiliser ainsi des champs de désignation en retardant la saturation de la mémoire.

F. Les règles de comportement.

À un instant donné, l'ECD est donc structuré par les différentes énergies de transition entre états. Mais si l'IA se trouve dans un état donné (initial), quel sera l'état suivant (final), en l'absence de stimulus? Pour le calculer, on applique deux nouvelles règles, qui reprennent l'idée d'introduire une part d'aléatoire [PEARL 88] .

Règle d'utilisation optimale de l'énergie

Le stock d'énergie de l'IA est alimenté par le flux externe. Par ailleurs chaque stimulus positionne l'IA dans un état donné (transition forcée), état à partir duquel s'effectueront ensuite les transitions spontanées, et chaque transition consomme de l'énergie. Le niveau instantané du stock dépend donc en fait de toute l'histoire de l'IA.

 À chaque instant, seuls un certain nombre d'états, dits "accessibles" sont candidats à être l'état (spontané) suivant : ceux vers lesquels l'énergie de transition est inférieure ou égale au stock disponible. Sur ces états accessibles, on définit une distribution de probabilité de transition.

 La règle stipule que la probabilité de transition est d'autant plus grande que l'énergie de transition est proche du stock disponible.

Règle de tirage au sort

Une fois calculées les probabilités de transition, le choix effectif de la transition qui sera effectuée se fait par tirage au sort en respectant la distribution de probabilité obtenue.

G. De la déduction à l'induction. Exemple

À ECD donné, que se passe-t-il alors quand le flux d'énergie augmente ? Prenons un petit exemple, avec deux cas extrêmes.

 L'ECD contient quatre états-concepts : {dauphin, animal, mammifère, poisson}

 On a donné les recommandations suivantes :

 1) dauphin, mammifère, très conseillé

 2) mammifère, animal, conseillé

 3) poisson, animal, conseillé

 4) dauphin, poisson, déconseillé

 Avec une fonction de déformation donnée, et une rigidité de 60%, on obtient la matrice des énergies de transition (à partir d'une matrice d'ignorance initiale où les éléments non nuls valent 1000).

                 dauphin       animal        mammifère        poisson       
dauphin          0             898           798              1248          
animal           1010          0             951              1063          
mammifère        1024          769           0                1081          
poisson          1040          781           985              0
Supposons que l'état initial soit dauphin et que le stock d'énergie initial soit nul.

Cas 1. Flux d'énergie = 1

Pendant 798 pas de temps, pas de transition possible, le stock s'incrémente de 1 à chaque fois. Ensuite, il y a transition vers l'état mammifère, et le stock retombe à zéro. Au bout de 769 pas de temps, transition vers animal. En abrégé, on a

 dauphin => mammifère => animal

 ce qui peut être assimilé à une déduction à partir des recommandations 1 et 2.

Cas 2. Flux d'énergie = 1000

Au premier pas de temps, le stock s'incrémente de 1000. Au deuxième pas de temps, il y a deux états accessibles, animal et mammifère, avec des probabilités respectives de 73% et 27% (avec la fonction de distribution choisie ici).

 Si la transition se fait sur animal, le stock passe à 102, puis à 1102, et les probabilités de transitions sont alors de 35% pour dauphin, 25% pour mammifère, 40% pour poisson.

 L'enchainement le plus probable commence donc ainsi

 dauphin => animal => poisson

ce qui peut être considéré comme une induction à partir des recommandations 1, 2 et 3, mais fort peu judicieuse car contraire à la recommandation 4.

 

En fait, il n'y a pas de différence de nature entre les différents types d'inférences logiques [CLERC 96, SUN 95, WANG 95] , mais des différences de degré de confiance. Les ECDs ne sont qu'une des manières d'utiliser ce résultat.

H. Évaluation quantitative de la connaissance acquise

1. Granularité structurelle et granularité contextuelle

On a vu qu'il y a une part d'incertitude dans l'évolution spontanée de l'IA, d'autant plus grande que l'ECD est moins structuré par l'apprentissage, c'est-à-dire que plusieurs énergies de transition à partir d'un même état initial sont proches, voire égales.

Du point de vue comportemental, et en se restreignant à l'égalité stricte, les états finaux candidats concernés forment donc un sous-ensemble d'états "équivalents". Le nombre de ces sous-ensembles d'équivalence permet de définir la granularité structurelle de l'ECD : elle lui est inversement proportionnelle. On a ici un bon indicateur du niveau de sophistication de l'IA, ce que l'on pourrait appeler son potentiel. Notons que pour des ECDs à grand nombre d'états, il peut être plus judicieux d'utiliser une notion d'équivalence floue, mais le principe reste le même.

 Mais le comportement réel dépend à chaque instant du stock d'énergie. On peut donc aussi calculer une granularité contextuelle, en ne prenant en compte que les états réellement accessibles, en fonction du stock d'énergie : l'IA peut rarement utiliser toutes les connaissances acquises.

2. Exemple . Le faux problème de la connaissance innée

En reprenant l'exemple-jouet utilisé plus haut, on obtient, après la première recommandation la matrice d'énergies de transition suivante :
                 dauphin       animal        mammifère        poisson       
dauphin          0             1026          812              1024          
animal           1006          0             961              1012          
mammifère        1000          1006          0                1006          
poisson          1006          1012          961              0
dont la granularité structurelle est égale à 16/4+4+3+4 = 16/15.

 Après la seconde recommandation, elle atteint déjà sa finesse maximale, à savoir 1 : la connaissance acquise peut encore changer de nature et de pertinence, mais ne peut plus augmenter.

 On voit donc que la connaissance effectivement fournie est plus importante que l'on pourrait le croire. Mais il n'y a là rien de paradoxal, contrairement à ce qui a pu être écrit [LANDAUER 97]  : c'est juste que notre estimation intuitive est erronée : les connaissances dont l'IA fait état lui ont bel et bien été données par son éducateur, même si c'était involontairement.

III. Quelques voies de recherche, en guise de conclusion provisoire

Vu la grande généralité du modèle, et le confort apporté par la méthode des recommandations, il vaut sans doute la peine d'approfondir et d'affiner certains aspects des ECDs, en traitant en priorité les principales faiblesses. Ma conclusion provisoire sera donc plutôt une esquisse de programme de recherche.

ECDs flous

Pour les utilisations pratiques, il est nécessaire d'adjoindre des désignations aux états. Dans la simulation actuelle, ceci peut se faire soit a priori, soit à la volée au cours de l'apprentissage, mais de toutes façons, une désignation est ou n'est pas déjà affectée à un état. Ceci est peut-être un peu trop binaire, et j'ai commencé à étudier comment coupler ECDs et représentations floues [CLERC 96] .

Agents à ECD

J'ai évoqué, à propos de la quantification du temps, le dialogue entre IAs. Comme l'éducation d'une IA via son ECD se fait par des recommandations très simples, il est tentant de constituer un groupe d'IAs s'auto-éduquant au moins partiellement. On entre ici dans le fascinant domaine des agents intelligents.

Remerciements

 À mon ami Jim Kennedy, psychologue, pour son insistance à me faire intégrer l'oubli dans le processus d'apprentissage, pour ses conseils visant à donner à P'tit Bert un comportement réaliste ... et pour sa parfaite connaissance de Platon.

 

Références

 [BILGIC 94] Bilgiç T., Interval Valued Fuzzy Sets from Continuous Archimedean Triangular Norms, FUZZ-IEEE'94, Orlando, 1994

 [CLERC 95] Clerc M., Validité psychologique des représentations floues, 1995

 [CLERC 96] Clerc M., Déduction en Représentation Floue Hiérarchique. Un exemple, 1996

 [COX 97] Cox E. D., La logique floue pour les affaires et l'industrie, 1997

 [D'ESPAGNAT 85] d'Espagnat B., Une incertaine réalité, 1985

 [DEROGNAT 92] Derognat I. et Maurice Baumont C., Formalisations imprécises de la distance cognitive, 1992

 [DUCH 94] Duch W. et Diercksen G. H. F., Feature Space Mapping as a Universal adaptive System, 1994

 [EISLER 77] Eisler H. et Roskam E. E., Multidimensional Similarity: An Experimental and Theoretical Comparison of Vector, Distance, and Set Theoretical Models, 1977

 [GHIGLIONE 90] Ghiglione R., Bonnet C. et Richard J.-P., Traité de psychologie cognitive, 1990

 [GIRAUD-CARRIER 94] Giraud-Carrier C. et Martinez T., An efficient metric for heterogeneous inductive learning applications in the attribute-value language., 1994

 [HYMAN 67] Hyman R. et Well A., Judgements of similarity and spatial models, 1967

 [IBEKWE 95] Ibekwe F., Traitement linguistique des données textuelles pour la recherche des tendances thématiques, VSST'95, Toulouse, 1995

 [LANDAUER 97] Landauer T. K. et Dumais S. T., A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge, 1997

 [LOPEZ DE MANTARAS 90] Lopez de Mantaras R., Cortes U., Manero J. et Plaza E., Knowledge engineering for a document retrieval system, 1990

 [PAIJMANS 93] Paijmans H., Comparing the document representations of two IR-systems: CLARIT and TOPIC, 1993

 [PEARL 88] Pearl J., Probabilistic Reasoning in Intelligent Systems, 1988

 [RATCLIFF 94] Ratcliff R. et McKoon G., Retrieving Information From Memory: Spreading-Activation theoris Versus Compoud-Cue Theoris, 1994

 [RIPS 73] Rips L. J., Shoben E. J. et Smith E. E., Semantic Distance and the Verification of Semantic Relations, 1973

 [SHEPARD 62] Shepard R. N., The Analysis of Proximities:

 Multidimentional Scaling with an Unknown Distance Function, 1962

 [SUN 95] Sun R., A new approach toward modeling causality in commonsense reasoning, 1995

 [TANABE 93] Tanabe K., Ohya J. et Ishii K., Similarity retrieval method using multi-dimensional psychological space, 1993

 [WANG 95] Wang P., Non-Axiomatic Reasoning System. Exploring the essence of Intelligence, 1995

  1