But du travail
La finalité de ce travail est un programme informatique prenant en entrée une liste dadjectifs, et donnant en sortie la lemmatisation de ces adjectifs, ce dernier fichier nétant destiné quà un traitement automatique. Présenter la lemmatisation à un être humain ne fait pas partie de notre étude. Ce sera peut-être lobjet dun travail profitable mais pour le moment secondaire. Notre sujet se limite aux adjectifs qualificatifs sans pour autant entrer dans une discussion sur la classe lexicale des mots en français. Par exemple, les adjectifs adnominaux (ou relationnels) comme présidentiel, événementiel, ou les unités lexicales ayant plusieurs classes comme fort (adverbe ou adjectif) seront considérées comme adjectifs qualificatifs. Un adjectif est pris pour sa forme et ses variations morphologiques et non pas pour sa fonction sémantique. Par exem
La forme du lemme ne sera pas discutée ici. A linstar des dictionnaires papiers destinés au grand public, cette forme sera celle du masculin singulier.
Les informations
La première question à se poser est de savoir quelles informations vont apparaître dans cette lemmatisation.
Le genre et le nombre sont les premières informations à donner pour un adjectif. Dautres informations, comme leur paradigme dapparition, etc., pourraient aussi y figurer, mais ceci fait lobjet dun travail plus approfondi que le nôtre. Les valeurs possibles de ces deux traits sont pour le genre le masculin et le féminin, et pour le nombre le singulier et le pluriel. Il existe aussi des adjectifs pour lesquels le genre et le nombre sont invariables. Certains adjectifs de couleur en sont un exemple. Puis, il y aura des cas où il sera impossible de déterminer la valeur de ces champs linguistiques. Toutes ces informations devront figurer dans la lemmatisation.
Leur présentation
La deuxième question à se poser est de savoir sous quelle forme ces informations seront présentées.
A des fins de maintenance ou tout simplement de vérification du résultat, il nous faut un minimum de structures visibles afin de permettre une lecture aisée de ce fichier, sans pour autant trop allonger les descripteurs pour des raisons déconomie de place en mémoire.
Les valeurs des champs genre et nombre seront placées entre accolades, m pour « masculin », f pour « féminin », s pour « singulier » et p pour « pluriel ». Elles seront précédées de la lettre g pour « genre » et n pour « nombre ». Le fait que le genre, ou le nombre, reste indéterminé sera symbolisé par un point dinterrogation, et un i symbolisera le fait que ladjectif est invariable. Bien quil ne sagisse que dun travail sur les adjectifs qualificatifs, il serait prudent dindiquer aussi la classe du mot, aq pour « adjectif qualificatif », précédée par la lettre c. Bien quen précisant la nature de linformation donnée en la faisant précéder dune clef (c, g, n)
mot du texte : lemme, c{aq}, g{m ou f ou i ou ?},n{s ou p ou i ou ?}\________________/ \______________________________________/
1 21 = Patron général pour une lemmatisation
La lemmatisation
Le premier objectif est de fabriquer des règles de transformations morphologiques qui permettront de passer des formes du pluriel aux formes du singulier, des formes du féminin aux formes du masculin et de reconnaître les formes qui sont déjà au masculin singulier. La lemmatisation de ces adjectifs reposera uniquement sur leur forme, et ces règles ne feront intervenir aucune analyse phonologique ou syntaxique.
Le lemmatiseur final devra utiliser le moins possible les dictionnaires, les listes dexceptions, et tout aide autre que ces règles de transformations morphologiques. Cependant, quand aucune synthèse satisfaisante ne peut aboutir à une règle, nous pensons que les listes stockées en dehors du programme sous forme de fichiers est un procédé se révélant très pratique en ce qui concerne leur maintenance.
Déductions et règles
La première remarque à faire est que les informations qui nous intéressent sont portées par la terminaison de ladjectif. La deuxième remarque est que la flexion du nombre est toujours placée après la flexion du féminin, sil y en a une : heureux (masculin singulier) donne heureuses au féminin pluriel. La flexion du pluriel s vient après la flexion du féminin euse.
Il faut donc décomposer notre problème en deux lemmatisations : une pour ôter au mot les marques de pluriel, et lautre pour ôter les marques du féminin dans cet ordre.
Étudions donc pour commencer les différentes formes du pluriel à laide de grammaires, leurs listes de terminaisons, de marques morphologiques et dexceptions étant tout à fait utiles. Mais il faut remarquer que nous travaillons dans le sens inverse : alors que les grammaires fixent la formation du féminin et du pluriel à partir dun lemme au masculin singulier, nous nous efforçons quant à nous de retrouver ce lemme à partir de formes fléchies.
La règle générale donnée pour la formation du pluriel pour les adjectifs est de rajouter un s à la fin du mot. Donc il suffirait denlever ce s final pour se retrouver avec une forme au singulier. Or nous savons que certains mots se terminent déjà par s au singulier, et que dans ce cas aucune marque de pluriel nest rajoutée (gris, chinois, divers, ...). Comment traiter ces exceptions ? Comment savoir si le s fait partie intégrante de la base, ou si cest la marque du pluriel ? Nous avons deux solutions :
Dans tous les cas, la première chose à faire est de rassembler toutes ces exceptions ne serait-ce que pour les analyser. En voici une liste non exhaustive : gris, chinois, divers, compris, permis, bas, gras, gros, épais, las, profès, déconfès.
Nous avons deux autres formes du pluriel pour les adjectifs : eaux qui donne eau, et aux qui donne al au singulier. Ces suffixes du pluriel ne posent pas de problèmes. Remarquons que ce sont des marques du pluriel utilisées uniquement si le genre de ladjectif est masculin (au féminin pluriel, ces adjectifs donnent une forme en -elles ou -ales et la règle générale reprend le dessus : on enlève simplement le s final).
Les autres adjectifs terminés par la lettre x peuvent être soit au pluriel soit au singulier (doux, roux, heureux, peureux, volumineux, spacieux, ...).
Si aucune de ces terminaisons nest présente, le mot est au singulier et la première partie de la lemmatisation est finie.
La règle générale de formation du féminin de ladjectif à partir son masculin est dy ajouter un e, sauf sil en possède déjà un comme lettre finale. En fait, et cest très important, tous les adjectifs ne se terminant pas par un e sont masculins. Mais tous les adjectifs se terminant par un e ne sont pas forcément au féminin (rouge, calme, facile, tranquille, jeune, propre, etc.). Notre « règle générale de lemmatisation du genre » (RG) sera donc dôter simplement la finale e dans le cas où la terminaison de ladjectif nous le permet. Le tableau 1 est le résultat dune étude (non exhaustive en ce qui concernent leurs exceptions) de ces terminaisons.
Terminaison |
Féminin | Masculin |
absolue | absolu | |
-ée |
carrée | carré |
grande | grand | |
-te |
petite | petit |
-ie |
polie | poli |
-ale |
générale | général |
-ole |
espagnole | espagnol |
-ile |
civile | civil |
Tableau 1 : Les terminaisons des adjectifs dont la finale e peut être supprimée pour obtenir le masculin directement (RG).
Il nous faut maintenant étudier le cas où la terminaison nest pas incluse dans le tableau 1. Cela implique que la suppression de la finale e ne suffit plus pour retrouver le masculin. Nous allons faire une liste de ces différentes terminaisons (féminines donc) en leur faisant correspondre leur masculin, ce qui constituera des sous-règles (SR) de lemmatisation du genre. Ce sont là des règles de substitution. La terminaison soulignée est remplacée par celle qui suit :
Terminaison |
Terminaison masculine |
-teuse ou -trice |
teur (menteur, directeur, ...) |
-euse |
eux ou eur (heureux, nerveux, blagueur...) |
-sse |
|
-se |
s (gris, chinois, divers, ...) |
-lle |
|
-olle |
|
-ve |
f (positif, neuf, naïf...) |
-ère |
er (fier, cher, amer, ...) |
-ète |
et (complet, secret, ...) |
-tte |
t (net, coquet, muet) |
-nne |
n (bon, breton, coréen, ancien, ...) |
Tableau 2 : Sous-règles de substitutions (SR) pour les terminaisons en e
Le genre de toutes les autres formes se terminant par un e peut être soit le féminin soit le masculin et restera indéterminé, sauf pour les adjectifs grecque, turque, et publique (que/c), oblongue et longue (gue/g), les mots se terminant par ë aiguë, ambiguë, suraiguë, contiguë, exiguë, (uë/u), bénigne et maligne (gne/n), clair, impair, pair, noir (re/r), blanche et franche (che/c), puis fraîche (frais), et sèche (sec).
De cette liste de terminaisons nous pouvons encore dégager cette règle :
« une consonne géminée dans la terminaison entraîne un féminin, et le masculin peut être retrouvé en remplaçant la double consonne par une seule. (sse, lle, tte, nne) sauf pour la terminaison olle qui donne ou au masculin. »
A cette nouvelle règle, plus générale, correspondent toujours les mêmes exceptions (Cf. notes , , et ).
Il existe en fait un nombre important dadjectifs en euse dont le masculin nest pas eux, mais eur. Nous ne pouvons donner le rapport quil existe entre le nombre dadjectifs en euse qui donnent eux au masculin et le nombre dadjectifs en euse qui donne eur au masculin, faute doutils de recherche adéquats. Ce qui nous oblige à formuler une sous-règle générale arbitraire, et à constituer une longue liste dexceptions qui paraît ici inévitable. La règle retenue sera « euse donne eux au masculin » et la liste dexception sera celle des adjectifs en euse qui donnent eur au masculin. Dans le cadre dun travail plus approfondi, une étude des deux listes dexceptions respectives aux deux règles générales possibles devrait être menée afin de voir dans laquelle le nombre de
Toutes les règles, sous-règles et exceptions citées doivent être appliquées dans un ordre déterminé sous peine de fausser leur validité. Les sous-règles générales (SR) doivent être appliquées avant les règles générales (RG). Par exemple la SR de substitution « tte/t » doit être appliquée avant la RG « te/t » sinon ladjectif nette sera lemmatisé en nett. De même, les exceptions doivent être traités avant les règles (ou sous-règles).
Nous rappelons quune exception peut être traitée par une sous-règle dexception (Cf note ). Par exemple, autodidacte, hétéroclite, ... et les adjectifs terminés par iste sont tous des exceptions à la règle générale de lemmatisation « te/t ». Mais ces derniers adjectifs terminés par iste peuvent être pris en compte par une sous-règle et seuls les premiers devront être listés dans un fichier dexception. Lusage de ce genre de règles sappliquant à des exceptions permet parfois de réduire leur nombre jusquà faire disparaître entièrement la liste dexception.
Cependant, il est rare que cela se produise et dans notre cas, les listes dexceptions trouvées jusquici ne permettent pas de déterminer des sous-règles qui pourraient les faire entièrement disparaître, car elles ne contiennent plus en général quun nombre dadjectifs trop peu élevé, ou dont la morphologie ne fait plus apparaître de constantes (comme les deux adjectifs autodidacte et hétéroclite de la remarque précédente), et il serait de toute façon inutile dalourdir lalgorithme de traitement en emboîtant des sous-règles qui ne portent que sur 2 ou 3 adjectifs.
De ce fait, le nombre de liste dexceptions peut augmenter très rapidement. En fait, il augmente pratiquement à la même vitesse que le nombre de règles et de sous-règles, qui sont déjà nombreuses. Pour donner un exemple, chacune des terminaisons que, gue, gne, uë, re, che possèdent une règle morphologique de lemmatisation, mais aussi des exceptions liées à chacune de ces six règles. Si nous formons un fichier dexceptions pour chacune des règles, et sous-règles nous en aurons environ quinze au total et nous rappelons une fois plus de plus que ce travail nest pas exhaustif.
Un traitement automatique suppose une généralisation globalisée. Nous avons essayé de généraliser les règles de lemmatisation afin de réduire leur nombre. Ce qui implique 1) quelles soient plus puissantes, au sens où chacune delles prend en compte un plus grand nombre de type dadjectifs, et 2) que les exceptions soient regroupées puisque ne sopposant plus quà une seule règle, plus générale (Exemple : les exceptions listées aux notes , , et qui se rapporte aux adjectifs dont la terminaison comporte des consonnes redoublées).
Donc, en généralisant les règles nous devons regrouper des fichiers dexceptions. Cette idée est intéressante en soi. Afin de réduire cette fois-ci le nombre de listes dexceptions, nous allons chercher à les regrouper en un nombre de fichiers réduit.
La maintenance des exceptions en serait grandement simplifiée : le nombre de règles et/ou dexceptions augmenterait sans que le nombre de fichiers dexceptions en soit affecté. Lalgorithme en serait donc lui aussi simplifié. De plus, il suffirait de vérifier au tout début si ladjectif en entrée ne bénéficie pas dun traitement particulier, et si non dappliquer la suite de lalgorithme, qui ne contiendrait plus de vérification des exceptions.
Ce regroupement dexceptions nest peut-être pas conseillé dans le cadre dune recherche dun algorithme performant car elle entraîne un ralentissement du traitement du fait que la terminaison de ladjectif nest pas authentifiée avant la lecture du fichier correspondant. Mais notre but est dessayer de trouver une autre gestion possible des exceptions.
Sur quels critères regrouper ces fichiers dexceptions ?
Jusquici les exceptions nont été classées que par rapport aux règles auxquelles elles correspondent, ces règles traitant la terminaison dadjectifs. Par exemple nous aurions un fichier des adjectifs se terminant par un s au singulier, un fichier des adjectifs en que qui prennent un c au masculin, un fichier des adjectifs en gue dont le e devrait être ôté (même chose pour les terminaisons gne, uë, re,...), etc.. Or, nous pourrions réduire ce nombre en ne les classant plus par rapport à leur terminaison, mais par rapport à la sortie quelles produisent. En effet, pour chaque lemmatisation il existe un nombre limité de sorties correspondantes, et de surcroît, et cest là où se penche notre intérêt, qui est fixe. Ce qui correspond tout à fait à ce que nous cherchons.
Mais il faut faire attention à un point : cette méthode de regroupement des exceptions "par sortie engendrée" nest pas valable pour des fichiers contenant un nombre important dexceptions comme les adjectifs en euse qui donnent eur au masculin. Il faudra donc garder certains fichiers à part et ne les consulter quaprès avoir déterminé la terminaison de ladjectif.
Afin de simplifier lalgorithme, nous listerons à lintérieur de certains fichiers dexceptions les deux formes complètes, non lemmatisée et lemmatisée, en correspondance, sur la même ligne.
Une étude phonologique peut apporter beaucoup à ce travail, notamment à propos des voyelles muettes en fin de mot, etc.. De plus, la phonologie pourrait enrichir nos règles de transformation morphologiques : laccent grave qui apparaît au féminin dans les règles « er/ère » (hospitalier/hospitalière) doit certainement découler dune constante phonologique du français, tout comme « n/gne » (bénin/bénigne), ou « f/ve » (neuf/neuve, opposition sourde/sonore). Une étude des graphèmes du français serait utile pour reconnaître les adjectifs dont la finale e ne peut pas être ôtée (lâche, pratique, vague, âcre, âpre, acariâtre, aigre, laxiste, leste). La phonologie a
Résumé des listes dexceptions
Lemmatisation du nombre
gris, chinois, divers, compris, permis, bas, gras, gros, épais, las, profès, déconfès, antirides, anticasseurs
choux
Lemmatisation du genre
nouvel : nouveau, bel : beau, vieil : vieux
boudeuse, ... (un assez grand nombre)
froide (froid), laide (laid)
tcherkesse, orange, pomme, marron, pantère
This page is hosted by
Get your own Free Home Page