Le contexte de l'IA ne comporte que deux éléments variables au cours du temps : un flux d'une quantité appelée ici "énergie", et un stimulus correspondant (ou non) à l'un de ses états.
À chaque instant, la structure de l'ECD est donnée par les énergies de transition minimales entre états. Intuitivement, on peut les voir comme des distances entre points d'un espace non euclidien, bien qu'elles n'en soient pas vraiment, au sens mathématique du terme.
En utilisation, le fonctionnement est le suivant. À chaque instant l'IA i) incrémente son stock d'énergie en fonction du flux, ii) considère le stimulus entrant, iii)le met en correspondance avec un de ses états possibles, iv) recherche la "bonne" transition à partir de cet état, v) effectue la transition et met à jour (décrémente) le stock d'énergie.
La déformation-apprentissage consiste à modifier les énergies de transition. Cela peut se faire en suivant des recommandations floues données par l'utilisateur ("Après l'état i, il serait bien d'avoir l'état j"), ou en auto-apprentissage (lecture de textes, par exemple). Une déformation donnée se propage de façon décroissante dans tout l'ECD (que l'on peut imaginer ici comme une sorte de "pâte à modeler"), en fonction d'un paramètre de rigidité. L'apprentissage est donc incrémental. Par ailleurs il n'est généralement pas totalement réversible. Des applications sont envisageables dans les domaines de la gestion documentaire [IBEKWE 95, LOPEZ DE MANTARAS 90, PAIJMANS 93] et des systèmes de décision [COX 97] , mais d'autres aspects intéressants pourraient être utiles en psychologie (simulation de stratégies d'apprentissage, formalisation de comportements définis par des termes comme "esprit souple", "faire le rapprochement", etc.) [GHIGLIONE 90, RATCLIFF 94] .
Dans ce qui suit, je vais reprendre plus en détail les principaux points rapidement évoqués ci-dessus. Les quelques exemples donnés proviennent d'une simulation logicielle appelée P'tit Bert. Naturellement un tel programme informatique impose des limitations proprement techniques (en termes de temps de calcul et de capacité mémoire), mais permet cependant de bien mettre en évidence les atouts et les faiblesses du concept d'ECD et des modèles y faisant appel.
En fait il faut séparer ici le concept d'état, au sens abstrait et formel, de celui de sa signification (pour nous). Un état doit simplement pouvoir être identifié et nommé, par exemple par un numéro, mais on peut lui associer une "désignation", l'ensemble des deux formant un état-concept. Exemples : 1 <=> banane, 2 <=> 6 fois 7, 3 <=> jaune, 4 <=> 42.
En apprentissage par recommandations (cf. ci-dessous), il est plus intuitif de travailler à l'aide des désignations ("Après l'état 6 fois 7, l'état 42 est très souhaitable"), plutôt qu'avec des numéros ("Après l'état 2 l'état 4 est très souhaitable") mais ce n'est nullement indispensable : on s'intéresse ici aux relations entre des entités (transitions entre états) et non aux entités elles-mêmes.
Mais avant de préciser comment la notion d'ECD permet de formuler des règles d'éducation d'une IA, explicitons les hypothèses qui la sous-tendent.
Pour banale et évidente que puisse sembler cette affirmation, il convient cependant de lui donner le statut d'hypothèse de travail, d'autant qu'il n'est pas sûr qu'elle soit respectée dans le monde réel [D'ESPAGNAT 85] .
En pratique, pour une IA donnée, ces valeurs sont souvent des entiers consécutifs. Mais ce n'est pas une obligation, et cette liberté de choix prend tout son sens lorsque l'on fait dialoguer plusieurs IAs : elles peuvent très bien évoluer dans des univers "parallèles" dont les seuls points de rencontre sont les valeurs de temps communes.
Par ailleurs, si beaucoup de modèles cognitifs font usage d'une métaphore spatiale [CLERC 95, DEROGNAT 92, DUCH 94, EISLER 77, GIRAUD-CARRIER 94, HYMAN 67, LANDAUER 97, RIPS 73, SHEPARD 62, TANABE 93] , souvent sous la forme d'une distance entre concepts dans un espace vectoriel, on notera qu'il ne s'agit pas ici d'une vraie distance (pas de norme sous-jacente, ni même de semi-norme). En fait, on ne s'intéresse pas du tout au caractère euclidien ou non de l'ECD, ni d'ailleurs à sa dimensionnalité.
Cette hypothèse nous permettra de travailler directement sur la matrice des énergies de transition entre états, plutôt que de calculer des longueurs dans un espace courbe.
Ceci permettra de caractériser le comportement de type déductif comme étant celui observé sous le flux d'énergie minimum.
- la confusion totale. Toutes les énergies de transition sont nulles, l'IA passe avec une parfaite facilité (au hasard) de n'importe quel état à n'importe quel autre.
- l'obstination stupide. Toutes les énergies de transition sont à une même grande valeur, et l'IA passe avec la même difficulté (au hasard) de n'importe quel état à n'importe quel autre (en pratique, elle "boucle" longtemps sur chaque état).
Notons que si l'on s'intéresse aux désignations des états, à cette ignorance structurelle s'ajoute une ignorance sémantique : les états-concepts sont "vides".
En fait, dire que l'IA ne sait rien n'est qu'un raccourci. Disons plutôt qu'elle n'a encore rien appris, et ne dispose que de quelques connaissances "innées", qui sont justement les règles d'apprentissage et de fonctionnement. Le but du jeu, si j'ose dire, est de minimiser ces connaissances innées.
Exemples
(banane, légume, très déconseillé). En langage clair "La transition de l'état-concept banane vers l'état-concept légume est très déconseillée".
(9 fois 7, 63, très conseillé)
(riche ET bien portant, prêt accordé, conseillé)
L'éducateur de l'IA est donc amené à se poser quelques questions. Vaut-il mieux des recommandations positives (diminutions d'énergies de transition) ou négatives ? Comment choisir la valeur de la recommandation, même floue ?
Les simulations montrent qu'une bonne tactique consiste à définir d'abord des "points d'ancrage" par des recommandations négatives (ex. "Un mammifère n'est pas un poisson" ou, plus formellement, (mammifère, poisson, très déconseillé)), généralement de façon symétrique, puis ensuite de donner des recommandations positives regroupant d'autres états-concepts autour de ces points d'ancrage (ex. (dauphin, mammifère, très conseillé)).
En ce qui concerne les valeurs des recommandations, le système est plutôt robuste, et, on s'aperçoit que ce sont moins ces valeurs elles-mêmes qui comptent que leur cohérence (les relations d'ordre partiel).
Le système reçoit une suite de stimulus qui sont autant d'états possibles, par exemple les mots consécutifs d'un texte. On définit un empan d'observation de ces stimulus (correspondant à une mémoire à court terme), qui permet de définir de nouveaux états formés par les regroupements des stimulus en séquences de longueur au plus égale à cet empan. Enfin, on suppose que le fait d'avoir deux états en séquence correspond à une certaine recommandation positive (d'où la nécessité de partir d'une ignorance du type "obstination stupide").
Exemple
La séquence "Le chien est un mammifère" génère dans l'ordre, avec un empan de trois, les douze états-concepts suivants :
le, chien, le chien, est, chien est, le chien est, un, est un, chien est un, mammifère, un mammifère, est un mammifère
En même temps, des recommandations positives sont également générées : (le, chien, valeur), (chien, le chien, valeur), ..., (un mammifère, est un mammifère, valeur).
La valeur est un paramètre du modèle. Faible, elle induit un apprentissage lent mais assez sûr, élevée, elle peut conduire à favoriser à tort des rapprochements erronés.
Comme dans d'autres systèmes ne partant d'aucune connaissance a priori [LANDAUER 97] , seuls des rapprochements sont directement possibles (corrélations positives), les éloignements ne pouvant s'obtenir qu'indirectement, par défaut, pour ainsi dire. Par exemple le texte "Le faisan est peu intelligent" générera en fait par propagation (voir ci-dessous) un léger rapprochement des états-concepts faisan et intelligent.
En pratique, cependant, dans les textes "didactiques" (comme les encyclopédies), les informations sont données majoritairement par des formulations positives et redondantes. Et donc une recommandation positive générée fautivement sera suffisamment contrebalancée par d'autres émises à bon escient.
- la déformation est du signe opposé de celui de la valeur de recommandation.
- la déformation est fonction décroissante de la rigidité.
- si la rigidité est totale, la déformation est nulle.
- la transition dite "de base", sur laquelle porte la recommandation (classe 0),
- les transitions de même origine que cette transition de base (classe 1),
- les autres transitions (classe 2).
Alors tout doit se passer comme si était appliquée une série de recommandations de valeurs absolues fonctions décroissantes de la classe.
Pour le sens de la déformation à effectuer (augmentation ou diminution), on applique récursivement une sous-règle générale à tous les triplets d'états (i,j,k), où (i,j) est la transition de base, à savoir que les énergies de transition e(i,k) et e(k,j) doivent varier en sens contraire.
Il s'avère que le choix consistant à faire varier e(i,k) dans le même sens que e(i,j) favorise des cycles de "raisonnement" plus longs.
Enfin on peut, en option, considérer qu'il faut maintenir une certaine cohérence par le biais du respect d'inégalités triangulaires généralisées [BILGIC 94, CLERC 95] .
Par ailleurs, si un état est suffisamment éloigné de tous les autres, on peut changer sa désignation sans inconvénient. On sort du modèle proprement dit, mais pour une simulation informatique, il est pratique de pouvoir réutiliser ainsi des champs de désignation en retardant la saturation de la mémoire.
À chaque instant, seuls un certain nombre d'états, dits "accessibles" sont candidats à être l'état (spontané) suivant : ceux vers lesquels l'énergie de transition est inférieure ou égale au stock disponible. Sur ces états accessibles, on définit une distribution de probabilité de transition.
La règle stipule que la probabilité de transition est d'autant plus grande que l'énergie de transition est proche du stock disponible.
L'ECD contient quatre états-concepts : {dauphin, animal, mammifère, poisson}
On a donné les recommandations suivantes :
1) dauphin, mammifère, très conseillé
2) mammifère, animal, conseillé
3) poisson, animal, conseillé
4) dauphin, poisson, déconseillé
Avec une fonction de déformation donnée, et une rigidité de 60%, on obtient la matrice des énergies de transition (à partir d'une matrice d'ignorance initiale où les éléments non nuls valent 1000).
dauphin animal mammifère poisson dauphin 0 898 798 1248 animal 1010 0 951 1063 mammifère 1024 769 0 1081 poisson 1040 781 985 0Supposons que l'état initial soit dauphin et que le stock d'énergie initial soit nul.
dauphin => mammifère => animal
ce qui peut être assimilé à une déduction à partir des recommandations 1 et 2.
Si la transition se fait sur animal, le stock passe à 102, puis à 1102, et les probabilités de transitions sont alors de 35% pour dauphin, 25% pour mammifère, 40% pour poisson.
L'enchainement le plus probable commence donc ainsi
dauphin => animal => poisson
ce qui peut être considéré comme une induction à partir des recommandations 1, 2 et 3, mais fort peu judicieuse car contraire à la recommandation 4.
En fait, il n'y a pas de différence de nature entre les différents types d'inférences logiques [CLERC 96, SUN 95, WANG 95] , mais des différences de degré de confiance. Les ECDs ne sont qu'une des manières d'utiliser ce résultat.
Du point de vue comportemental, et en se restreignant à l'égalité stricte, les états finaux candidats concernés forment donc un sous-ensemble d'états "équivalents". Le nombre de ces sous-ensembles d'équivalence permet de définir la granularité structurelle de l'ECD : elle lui est inversement proportionnelle. On a ici un bon indicateur du niveau de sophistication de l'IA, ce que l'on pourrait appeler son potentiel. Notons que pour des ECDs à grand nombre d'états, il peut être plus judicieux d'utiliser une notion d'équivalence floue, mais le principe reste le même.
Mais le comportement réel dépend à chaque instant du stock d'énergie. On peut donc aussi calculer une granularité contextuelle, en ne prenant en compte que les états réellement accessibles, en fonction du stock d'énergie : l'IA peut rarement utiliser toutes les connaissances acquises.
dauphin animal mammifère poisson dauphin 0 1026 812 1024 animal 1006 0 961 1012 mammifère 1000 1006 0 1006 poisson 1006 1012 961 0dont la granularité structurelle est égale à 16/4+4+3+4 = 16/15.
Après la seconde recommandation, elle atteint déjà sa finesse maximale, à savoir 1 : la connaissance acquise peut encore changer de nature et de pertinence, mais ne peut plus augmenter.
On voit donc que la connaissance effectivement fournie est plus importante que l'on pourrait le croire. Mais il n'y a là rien de paradoxal, contrairement à ce qui a pu être écrit [LANDAUER 97] : c'est juste que notre estimation intuitive est erronée : les connaissances dont l'IA fait état lui ont bel et bien été données par son éducateur, même si c'était involontairement.
Remerciements
À mon ami Jim Kennedy, psychologue, pour son insistance à me faire intégrer l'oubli dans le processus d'apprentissage, pour ses conseils visant à donner à P'tit Bert un comportement réaliste ... et pour sa parfaite connaissance de Platon.
Références
[BILGIC 94] Bilgiç T., Interval Valued Fuzzy Sets from Continuous Archimedean Triangular Norms, FUZZ-IEEE'94, Orlando, 1994
[CLERC 95] Clerc M., Validité psychologique des représentations floues, 1995
[CLERC 96] Clerc M., Déduction en Représentation Floue Hiérarchique. Un exemple, 1996
[COX 97] Cox E. D., La logique floue pour les affaires et l'industrie, 1997
[D'ESPAGNAT 85] d'Espagnat B., Une incertaine réalité, 1985
[DEROGNAT 92] Derognat I. et Maurice Baumont C., Formalisations imprécises de la distance cognitive, 1992
[DUCH 94] Duch W. et Diercksen G. H. F., Feature Space Mapping as a Universal adaptive System, 1994
[EISLER 77] Eisler H. et Roskam E. E., Multidimensional Similarity: An Experimental and Theoretical Comparison of Vector, Distance, and Set Theoretical Models, 1977
[GHIGLIONE 90] Ghiglione R., Bonnet C. et Richard J.-P., Traité de psychologie cognitive, 1990
[GIRAUD-CARRIER 94] Giraud-Carrier C. et Martinez T., An efficient metric for heterogeneous inductive learning applications in the attribute-value language., 1994
[HYMAN 67] Hyman R. et Well A., Judgements of similarity and spatial models, 1967
[IBEKWE 95] Ibekwe F., Traitement linguistique des données textuelles pour la recherche des tendances thématiques, VSST'95, Toulouse, 1995
[LANDAUER 97] Landauer T. K. et Dumais S. T., A Solution to Plato's Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge, 1997
[LOPEZ DE MANTARAS 90] Lopez de Mantaras R., Cortes U., Manero J. et Plaza E., Knowledge engineering for a document retrieval system, 1990
[PAIJMANS 93] Paijmans H., Comparing the document representations of two IR-systems: CLARIT and TOPIC, 1993
[PEARL 88] Pearl J., Probabilistic Reasoning in Intelligent Systems, 1988
[RATCLIFF 94] Ratcliff R. et McKoon G., Retrieving Information From Memory: Spreading-Activation theoris Versus Compoud-Cue Theoris, 1994
[RIPS 73] Rips L. J., Shoben E. J. et Smith E. E., Semantic Distance and the Verification of Semantic Relations, 1973
[SHEPARD 62] Shepard R. N., The Analysis of Proximities:
Multidimentional Scaling with an Unknown Distance Function, 1962
[SUN 95] Sun R., A new approach toward modeling causality in commonsense reasoning, 1995
[TANABE 93] Tanabe K., Ohya J. et Ishii K., Similarity retrieval method using multi-dimensional psychological space, 1993
[WANG 95] Wang P., Non-Axiomatic Reasoning System. Exploring the essence of Intelligence, 1995