Lemmat

Un lemmatiseur d'adjectifs en français
Devoir de Maîtrise de Traitement Automatique des Langues

Previous page : Lemmat
This page last update : 25 jan 98

ATTENTION : Je présente ici un devoir que j'ai fait en Maitrîse de Traitement Automatique des Langues en 1997, a l'INALCO. Prenez-le avec des pincettes : ceci n'en est pas la correction. C'est juste pour présenter un peu comment j'ai fait Lemmat.

Contenu

But du travail
Les informations données en sortie
La lemmatisation
Déductions et règles
Lemmatisation du genre
Lemmatisation du nombre
Resume des listes d'exceptions

But du travail

La finalité de ce travail est un programme informatique prenant en entrée une liste d’adjectifs, et donnant en sortie la lemmatisation de ces adjectifs, ce dernier fichier n’étant destiné qu’à un traitement automatique. Présenter la lemmatisation à un être humain ne fait pas partie de notre étude. Ce sera peut-être l’objet d’un travail profitable mais pour le moment secondaire. Notre sujet se limite aux adjectifs qualificatifs sans pour autant entrer dans une discussion sur la classe lexicale des mots en français. Par exemple, les adjectifs adnominaux (ou relationnels) comme présidentiel, événementiel, ou les unités lexicales ayant plusieurs classes comme fort (adverbe ou adjectif) seront considérées comme adjectifs qualificatifs. Un adjectif est pris pour sa forme et ses variations morphologiques et non pas pour sa fonction sémantique. Par exem

La forme du lemme ne sera pas discutée ici. A l’instar des dictionnaires papiers destinés au grand public, cette forme sera celle du masculin singulier.

Les informations

La première question à se poser est de savoir quelles informations vont apparaître dans cette lemmatisation.

Le genre et le nombre sont les premières informations à donner pour un adjectif. D’autres informations, comme leur paradigme d’apparition, etc., pourraient aussi y figurer, mais ceci fait l’objet d’un travail plus approfondi que le nôtre. Les valeurs possibles de ces deux traits sont pour le genre le masculin et le féminin, et pour le nombre le singulier et le pluriel. Il existe aussi des adjectifs pour lesquels le genre et le nombre sont invariables. Certains adjectifs de couleur en sont un exemple. Puis, il y aura des cas où il sera impossible de déterminer la valeur de ces champs linguistiques. Toutes ces informations devront figurer dans la lemmatisation.

Leur présentation

La deuxième question à se poser est de savoir sous quelle forme ces informations seront présentées.

A des fins de maintenance ou tout simplement de vérification du résultat, il nous faut un minimum de structures visibles afin de permettre une lecture aisée de ce fichier, sans pour autant trop allonger les descripteurs pour des raisons d’économie de place en mémoire.

Les valeurs des champs genre et nombre seront placées entre accolades, m pour « masculin », f pour « féminin », s pour « singulier » et p pour « pluriel ». Elles seront précédées de la lettre g pour « genre » et n pour « nombre ». Le fait que le genre, ou le nombre, reste indéterminé sera symbolisé par un point d’interrogation, et un i symbolisera le fait que l’adjectif est invariable. Bien qu’il ne s’agisse que d’un travail sur les adjectifs qualificatifs, il serait prudent d’indiquer aussi la classe du mot, aq pour « adjectif qualificatif », précédée par la lettre c. Bien qu’en précisant la nature de l’information donnée en la faisant précéder d’une clef (c, g, n)

mot du texte : lemme, c{aq}, g{m ou f ou i ou ?},n{s ou p ou i ou ?}

\________________/ \______________________________________/

      1                     2

1 = Patron général pour une lemmatisation
2 = Informations relatives aux adjectifs et placées à la suite.

Voici donc ce que pourrait donner un fragment du fichier de la lemmatisation :

doux : doux, c{aq}, g{m}, n{?}
inférieurs : inférieur, c{aq},g{m}, n{p}
orange : orange, c{aq}, g{i}, n{i}
belle : beau, c{aq}, g{f}, n{s}
fausse : faux, c{aq}, g{f}, n{s}
heureuses : heureux, c{aq}, g{f},n{p}
bizarres : bizarre, c{aq}, g{?}, n{p}
éphémère : éphémère, c{aq}, g{?}, n{s}
gris : gris, c{aq},g{m}, n{?}
habitables : habitable, c{aq}, g{?}, n{p}
supérieure : supérieur, c{aq}, g{f}, n{s}
riche : riche, c{aq}, g{?}, n{s}

La lemmatisation

Le premier objectif est de fabriquer des règles de transformations morphologiques qui permettront de passer des formes du pluriel aux formes du singulier, des formes du féminin aux formes du masculin et de reconnaître les formes qui sont déjà au masculin singulier. La lemmatisation de ces adjectifs reposera uniquement sur leur forme, et ces règles ne feront intervenir aucune analyse phonologique ou syntaxique.

Le lemmatiseur final devra utiliser le moins possible les dictionnaires, les listes d’exceptions, et tout aide autre que ces règles de transformations morphologiques. Cependant, quand aucune synthèse satisfaisante ne peut aboutir à une règle, nous pensons que les listes stockées en dehors du programme sous forme de fichiers est un procédé se révélant très pratique en ce qui concerne leur maintenance.

Déductions et règles

La première remarque à faire est que les informations qui nous intéressent sont portées par la terminaison de l’adjectif. La deuxième remarque est que la flexion du nombre est toujours placée après la flexion du féminin, s’il y en a une : heureux (masculin singulier) donne heureuses au féminin pluriel. La flexion du pluriel s vient après la flexion du féminin euse.

Il faut donc décomposer notre problème en deux lemmatisations : une pour ôter au mot les marques de pluriel, et l’autre pour ôter les marques du féminin dans cet ordre.

Lemmatiseur du nombre

Étudions donc pour commencer les différentes formes du pluriel à l’aide de grammaires, leurs listes de terminaisons, de marques morphologiques et d’exceptions étant tout à fait utiles. Mais il faut remarquer que nous travaillons dans le sens inverse : alors que les grammaires fixent la formation du féminin et du pluriel à partir d’un lemme au masculin singulier, nous nous efforçons quant à nous de retrouver ce lemme à partir de formes fléchies.

La règle générale donnée pour la formation du pluriel pour les adjectifs est de rajouter un s à la fin du mot. Donc il suffirait d’enlever ce s final pour se retrouver avec une forme au singulier. Or nous savons que certains mots se terminent déjà par s au singulier, et que dans ce cas aucune marque de pluriel n’est rajoutée (gris, chinois, divers, ...). Comment traiter ces exceptions ? Comment savoir si le s fait partie intégrante de la base, ou si c’est la marque du pluriel ? Nous avons deux solutions :

on étudie le contexte graphique du s final à l’aide d’un lexique de ces exceptions pour trouver des constantes et former des règles. C’est la meilleure solution si l’on veut éviter l’emploi de lexiques.

on ne forme pas de sous-règles, mais on garde ce lexique d’exceptions en tant que tel.

Dans tous les cas, la première chose à faire est de rassembler toutes ces exceptions ne serait-ce que pour les analyser. En voici une liste non exhaustive : gris, chinois, divers, compris, permis, bas, gras, gros, épais, las, profès, déconfès.

Nous avons deux autres formes du pluriel pour les adjectifs : eaux qui donne eau, et aux qui donne al au singulier. Ces suffixes du pluriel ne posent pas de problèmes. Remarquons que ce sont des marques du pluriel utilisées uniquement si le genre de l’adjectif est masculin (au féminin pluriel, ces adjectifs donnent une forme en -elles ou -ales et la règle générale reprend le dessus : on enlève simplement le s final).

Les autres adjectifs terminés par la lettre x peuvent être soit au pluriel soit au singulier (doux, roux, heureux, peureux, volumineux, spacieux, ...).

Si aucune de ces terminaisons n’est présente, le mot est au singulier et la première partie de la lemmatisation est finie.

Lemmatiseur du genre

La règle générale de formation du féminin de l’adjectif à partir son masculin est d’y ajouter un e, sauf s’il en possède déjà un comme lettre finale. En fait, et c’est très important, tous les adjectifs ne se terminant pas par un ‘e’ sont masculins. Mais tous les adjectifs se terminant par un e ne sont pas forcément au féminin (rouge, calme, facile, tranquille, jeune, propre, etc.). Notre « règle générale de lemmatisation du genre » (RG) sera donc d’ôter simplement la finale e dans le cas où la terminaison de l’adjectif nous le permet. Le tableau 1 est le résultat d’une étude (non exhaustive en ce qui concernent leurs exceptions) de ces terminaisons.

Terminaison	Féminin	Masculin
-ue	absolue	absolu
-ée	carrée	carré
-de	grande	grand
-te	petite	petit
-ie	polie	poli
-ale	générale	général
-ole	espagnole	espagnol
-ile	civile	civil

Tableau 1 : Les terminaisons des adjectifs dont la finale e peut être supprimée pour obtenir le masculin directement (RG).

Il nous faut maintenant étudier le cas où la terminaison n’est pas incluse dans le tableau 1. Cela implique que la suppression de la finale e ne suffit plus pour retrouver le masculin. Nous allons faire une liste de ces différentes terminaisons (féminines donc) en leur faisant correspondre leur masculin, ce qui constituera des sous-règles (SR) de lemmatisation du genre. Ce sont là des règles de substitution. La terminaison soulignée est remplacée par celle qui suit :

Terminaison	Terminaison masculine
-teuse ou -trice	teur (menteur, directeur, ...)
-euse	eux ou eur (heureux, nerveux, blagueur...)
-sse	s (bas, gros, las, ...)
-se	s (gris, chinois, divers, ...)
-lle	l (pareil, traditionnel)
-olle	ou (mou, fou, ...)
-ve	f (positif, neuf, naïf...)
-ère	er (fier, cher, amer, ...)
-ète	et (complet, secret, ...)
-tte	t (net, coquet, muet)
-nne	n (bon, breton, coréen, ancien, ...)

Tableau 2 : Sous-règles de substitutions (SR) pour les terminaisons en e

Le genre de toutes les autres formes se terminant par un e peut être soit le féminin soit le masculin et restera indéterminé, sauf pour les adjectifs grecque, turque, et publique (que/c), oblongue et longue (gue/g), les mots se terminant par ë aiguë, ambiguë, suraiguë, contiguë, exiguë, (uë/u), bénigne et maligne (gne/n), clair, impair, pair, noir (re/r), blanche et franche (che/c), puis fraîche (frais), et sèche (sec).

De cette liste de terminaisons nous pouvons encore dégager cette règle :

« une consonne géminée dans la terminaison entraîne un féminin, et le masculin peut être retrouvé en remplaçant la double consonne par une seule. (sse, lle, tte, nne) sauf pour la terminaison olle qui donne ou au masculin. »

A cette nouvelle règle, plus générale, correspondent toujours les mêmes exceptions (Cf. notes , , et ).

Il existe en fait un nombre important d’adjectifs en euse dont le masculin n’est pas eux, mais eur. Nous ne pouvons donner le rapport qu’il existe entre le nombre d’adjectifs en euse qui donnent eux au masculin et le nombre d’adjectifs en euse qui donne eur au masculin, faute d’outils de recherche adéquats. Ce qui nous oblige à formuler une sous-règle générale arbitraire, et à constituer une longue liste d’exceptions qui paraît ici inévitable. La règle retenue sera « euse donne eux au masculin » et la liste d’exception sera celle des adjectifs en euse qui donnent eur au masculin. Dans le cadre d’un travail plus approfondi, une étude des deux listes d’exceptions respectives aux deux règles générales possibles devrait être menée afin de voir dans laquelle le nombre de

Toutes les règles, sous-règles et exceptions citées doivent être appliquées dans un ordre déterminé sous peine de fausser leur validité. Les sous-règles générales (SR) doivent être appliquées avant les règles générales (RG). Par exemple la SR de substitution « tte/t » doit être appliquée avant la RG « te/t » sinon l’adjectif nette sera lemmatisé en nett. De même, les exceptions doivent être traités avant les règles (ou sous-règles).

Nous rappelons qu’une exception peut être traitée par une sous-règle d’exception (Cf note ). Par exemple, autodidacte, hétéroclite, ... et les adjectifs terminés par iste sont tous des exceptions à la règle générale de lemmatisation « te/t ». Mais ces derniers adjectifs terminés par iste peuvent être pris en compte par une sous-règle et seuls les premiers devront être listés dans un fichier d’exception. L’usage de ce genre de règles s’appliquant à des exceptions permet parfois de réduire leur nombre jusqu’à faire disparaître entièrement la liste d’exception.

Cependant, il est rare que cela se produise et dans notre cas, les listes d’exceptions trouvées jusqu’ici ne permettent pas de déterminer des sous-règles qui pourraient les faire entièrement disparaître, car elles ne contiennent plus en général qu’un nombre d’adjectifs trop peu élevé, ou dont la morphologie ne fait plus apparaître de constantes (comme les deux adjectifs autodidacte et hétéroclite de la remarque précédente), et il serait de toute façon inutile d’alourdir l’algorithme de traitement en emboîtant des sous-règles qui ne portent que sur 2 ou 3 adjectifs.

De ce fait, le nombre de liste d’exceptions peut augmenter très rapidement. En fait, il augmente pratiquement à la même vitesse que le nombre de règles et de sous-règles, qui sont déjà nombreuses. Pour donner un exemple, chacune des terminaisons que, gue, gne, uë, re, che possèdent une règle morphologique de lemmatisation, mais aussi des exceptions liées à chacune de ces six règles. Si nous formons un fichier d’exceptions pour chacune des règles, et sous-règles nous en aurons environ quinze au total et nous rappelons une fois plus de plus que ce travail n’est pas exhaustif.

Un traitement automatique suppose une généralisation globalisée. Nous avons essayé de généraliser les règles de lemmatisation afin de réduire leur nombre. Ce qui implique 1) qu’elles soient plus puissantes, au sens où chacune d’elles prend en compte un plus grand nombre de type d’adjectifs, et 2) que les exceptions soient regroupées puisque ne s’opposant plus qu’à une seule règle, plus générale (Exemple : les exceptions listées aux notes , , et qui se rapporte aux adjectifs dont la terminaison comporte des consonnes redoublées).

Donc, en généralisant les règles nous devons regrouper des fichiers d’exceptions. Cette idée est intéressante en soi. Afin de réduire cette fois-ci le nombre de listes d’exceptions, nous allons chercher à les regrouper en un nombre de fichiers réduit.

La maintenance des exceptions en serait grandement simplifiée : le nombre de règles et/ou d’exceptions augmenterait sans que le nombre de fichiers d’exceptions en soit affecté. L’algorithme en serait donc lui aussi simplifié. De plus, il suffirait de vérifier au tout début si l’adjectif en entrée ne bénéficie pas d’un traitement particulier, et si non d’appliquer la suite de l’algorithme, qui ne contiendrait plus de vérification des exceptions.

Ce regroupement d’exceptions n’est peut-être pas conseillé dans le cadre d’une recherche d’un algorithme performant car elle entraîne un ralentissement du traitement du fait que la terminaison de l’adjectif n’est pas authentifiée avant la lecture du fichier correspondant. Mais notre but est d’essayer de trouver une autre gestion possible des exceptions.

Sur quels critères regrouper ces fichiers d’exceptions ?

Jusqu’ici les exceptions n’ont été classées que par rapport aux règles auxquelles elles correspondent, ces règles traitant la terminaison d’adjectifs. Par exemple nous aurions un fichier des adjectifs se terminant par un s au singulier, un fichier des adjectifs en que qui prennent un c au masculin, un fichier des adjectifs en gue dont le e devrait être ôté (même chose pour les terminaisons gne, uë, re,...), etc.. Or, nous pourrions réduire ce nombre en ne les classant plus par rapport à leur terminaison, mais par rapport à la sortie qu’elles produisent. En effet, pour chaque lemmatisation il existe un nombre limité de sorties correspondantes, et de surcroît, et c’est là où se penche notre intérêt, qui est fixe. Ce qui correspond tout à fait à ce que nous cherchons.

Mais il faut faire attention à un point : cette méthode de regroupement des exceptions "par sortie engendrée" n’est pas valable pour des fichiers contenant un nombre important d’exceptions comme les adjectifs en euse qui donnent eur au masculin. Il faudra donc garder certains fichiers à part et ne les consulter qu’après avoir déterminé la terminaison de l’adjectif.

Afin de simplifier l’algorithme, nous listerons à l’intérieur de certains fichiers d’exceptions les deux formes complètes, non lemmatisée et lemmatisée, en correspondance, sur la même ligne.

Une étude phonologique peut apporter beaucoup à ce travail, notamment à propos des voyelles muettes en fin de mot, etc.. De plus, la phonologie pourrait enrichir nos règles de transformation morphologiques : l’accent grave qui apparaît au féminin dans les règles « er/ère » (hospitalier/hospitalière) doit certainement découler d’une constante phonologique du français, tout comme « n/gne » (bénin/bénigne), ou « f/ve » (neuf/neuve, opposition sourde/sonore). Une étude des graphèmes du français serait utile pour reconnaître les adjectifs dont la finale e ne peut pas être ôtée (lâche, pratique, vague, âcre, âpre, acariâtre, aigre, laxiste, leste). La phonologie a

Résumé des listes d’exceptions

Lemmatisation du nombre

A - sortie « indéterminé » : adjectifs se terminant par un s au singulier :

gris, chinois, divers, compris, permis, bas, gras, gros, épais, las, profès, déconfès, antirides, anticasseurs

B - sortie « pluriel » : adjectifs se terminant par un x au pluriel dont le singulier est retrouvé en ôtant ce x

choux

Lemmatisation du genre

C - sortie « féminin » : exceptions pour les terminaisons que, gue, gne, uë, ite, re, che, sse, lle, et les adjectifs douce, fraîche, sèche, brève, et patronnesse

grecque (grec), turque (turc), publique (public), longue (long), oblongue (oblong), bénigne (bénin), maligne (malin), aiguë (aigu), ambiguë (ambigu), suraiguë (suraigu), contiguë (contigu), exiguë (exigu), favorite (favori), coite (coi), claire (clair), impaire (impair), paire (pair), noire (noir), blanche (blanc), franche (franc), rousse (roux), fausse (faux), traitresse (traitre), maîtresse (maître), pêcheresse (pêcheur), expresse (exprès), déconfesse (déconfès), codemandresse (codemandeur), nouvelle (nouveau), belle (beau), jumelle (jumeau), vieille (vieux, douce (doux), fraîche (frais), sèche (sec), brève (bref), patronesse (patronesse)

D - sortie « indéterminé » : pas de modification au masculin

verdasse, fadasse, bonasse, tchérémisse, autodidacte, hétéroclite, leste, rebelle, tartignolle, analphabète, centripète, épithète, obsolète, austère, éphémère, prospère, pubère, impubère, sincère, antirouille, antiétincelle, antiglisse, antihausse, antimite, antiparasite, monocorde, bizarre

E - sortie « masculin »

nouvel : nouveau, bel : beau, vieil : vieux

F - Adjectifs en euse qui donnent eur au masculin

boudeuse, ... (un assez grand nombre)

G - Exceptions des sous-règles d’exceptions (par exemple note )

froide (froid), laide (laid)

H - sortie « invariable »

tcherkesse, orange, pomme, marron, pantère

FAIVRE-MACON Mickael
ChiaShin St., No 155-6, 3F, Taipei,TAIWAN
(+886) 2736-1314
E-mail: faivrem@tpts5.seed.net.tw

Back to top.

This page is hosted by

Get your own Free Home Page

Lemmat

Un lemmatiseur d'adjectifs en français Devoir de Maîtrise de Traitement Automatique des Langues

Previous page : Lemmat This page last update : 25 jan 98

ATTENTION : Je présente ici un devoir que j'ai fait en Maitrîse de Traitement Automatique des Langues en 1997, a l'INALCO. Prenez-le avec des pincettes : ceci n'en est pas la correction. C'est juste pour présenter un peu comment j'ai fait Lemmat.

Contenu

Un lemmatiseur d'adjectifs en français
Devoir de Maîtrise de Traitement Automatique des Langues

Previous page : Lemmat
This page last update : 25 jan 98