Le système est éduqué à l'aide de recommandations :
La matrice de transition G indique pour chaque activation éventuelle
(bit p à 1 => bit q à 1)une valeur d'énergie
minimale nécessaire. En pratique, on mémorise en fait des
"conductances" codées de 0 à 9, le seuil d'énergie
étant donné par 9/G(p,q). Ainsi la valeur 0 indique une activation
impossible, quelle que soit l'énergie disponible et la valeur 9
une activation possible avec le plus petit quantum d'énergie (1).
Le système reçoit à chaque pas de temps un certain
nombre d'unités d'un flux d'énergie qui peut être considéré
comme une variable de contexte. Chaque activation effectuée décrémente
le stock d'énergie. Le résultat net est qu'à chaque
instant l'état suivant dépend non seulement de l'état
actuel, mais aussi de la valeur du stock d'énergie
Au début, la matrice de transition et générée au hasard. Après chaque recommandation, les valeurs sont ensuite modifiées en prenant en compte les paramètres suivants :
Pour la facilité d'usage, les états ont des "noms"
descriptifs, mais la structuration de l'espace des états mentaux
est en fait indépendante du choix de ces noms.
Plus précisément, chaque état peut être envoyé en entrée d'un "énonceur" : celui-ci indique en retour un nom, avec l'indication de la valeur de confiance entre 0 et 1 (pour l'instant, on se contente de comparer le code de l'état d'entrée avec ceux de la liste des états énonçables).
Exemple
On donne trois états énonçables :
Le but du jeu est d'apprendre à P'tit Bert à répondre 4 après 2*2.
Phase 1 : affectation de codes, par exemple sur 5 bits. Elle se fait au hasard (il y a un module de correction de doublons). On trouve
Phase 2 : initialisation de la matrice de transition. Elle se fait au hasard (avec interdiction de lignes nulles). On trouve
Cela signifie, par exemple
Pour l'instant, le code 00100 (état 2*2) donne le code 10000. L'énonceur propose le nom 9 (confiance 0.8) car ce code n'a qu'un bit de différent du code de l'état 9.
Méthode positive
On donne comme recommandation
Méthode négative
Puisqu'il y a trois états énonçables, on peut
tenter d'indiquer successivement au système que l'état suivant
2*2 ne doit être ni 9, ni 2*2 .
"après l'état 2*2, impérativement de pas donner (-10) l'état 2*2. Rigidité=50"
Autrement dit, en apprentissage incrémental, le mieux est parfois l'ennemi du bien. Les raisons sont les suivantes :
En plus de ces amélorations, P'tit Bert 1 utilisera des rigidités locales, qui permettront d'imposer une plus ou moins grande stabilité de certaines connaissances stockées via la matrice de transition.