Les graphes de flexion permettent ainsi de traiter directement la répartition des mots selon l'harmonie vocalique, ce qui n'est pas le cas de l'alternance consonantique.
Les mots avec alternance consonantique font l'objet d'un prétraitement et d'un posttraitement lors de l'application des graphes de flexion. Un programme spécifique identifie les mots avec alternance consonantique dans le dictionnaire des lemmes et dédouble l'entrée du dictionnaire ; une ligne pour la forme forte et une ligne contenant les deux formes altenantes en lieu et place de la consonne concernée (Pour les lemmes au degré faible, c'est la même chose mais l'ordre des formes alternantes est inversé). exemple avec le mot katu "rue" et tiede "science" :
lemme au degré fort | avant traitement : | katu,N01BS |
après traitement : | katu,N01BS ka(t|d)u,N01BW |
lemme au degré faible | avant traitement : | tiede,N78FW |
après traitement : | tiede,N78FW tie(d|t)ee,N78FS |
Après application des graphes de flexion, le posttraitement consiste à remplacer les deux formes alternantes par la consonne appropriée dans le mot fléchi et dans le lemme :
lemme au degré fort | avant traitement : | ka(t|d)un,ka(t|d)u.N+SG+GEN |
après traitement : | kadun,katu.N+SG+GEN |
lemme au degré faible | avant traitement : | tie(d|t)een,tie(d|t)e.N+SG+GEN |
après traitement : | tieteen,tiede.N+SG+GEN |
Les lemmes qui n'ont pas d'alternance consonantique sont fléchis quant à eux à partir du graphe de fusion qui appelle les deux sous-graphes de flexion sans posttraitement.
Le traitement complet des mots est présenté et illustré dans le poster suivant :
dictionnaires | LEMMES | FORMES FLÉCHIES | |
A | adjectifs | 11 681 | 962 564 |
ADP | adpositions | 191 | 2 015 |
ADV | adverbes | 6 028 | 9 948 |
K | conjonctions | 36 | |
N | noms | 32 804 | 843 372 |
NEG | négation | 1 | 22 |
NPT | pluralia tantum | 259 | 4 025 |
NUM | numéraux | 43 | 920 |
PRO | pronoms | 52 | 1 243 |
V | verbes | 15 965 | 7 163 434 |
Selon leur catégorie et leur statut de mots simples ou complexes, le traitement est différent.
- Les adverbes, étant invariables, ne font l'objet d'aucun traitement particulier (asymmetrisesti
"asymétriquement",
dynaamisesti
"dynamiquement"...).
- Les mots composés inclus dans les dictionnaires et fléchis par les graphes de flexion ont une suffixation en rapport avec le vocalisme du dernier composant, tête du mot composé (pääasia
"chose essentielle",
kansainvälistyä
"s'internationaliser"...). Entrent également dans ce cadre les mots d'emprunt avec suffixation savante (neliömetri "mètre carré"...) et les mots dérivés au moyen d'un suffixe invariable (vähänlainen "assez petit",fyysikko "physicien"...). Ces mots sont correctement traités dans les dictionnaires.
- Les verbes formés à partir d'emprunts ainsi que les nominalisations correspondantes ont une suffixation réglée par le vocalisme de la terminaison verbale (pastöroida "pasteuriser", pastörointi "pasteurisation"...).
Tous les autres mots dysharmoniques - essentiellement des mots simples - inclus dans le dictionnaire spécifique, sont systématiquement fléchis avec les deux types de suffixes (suffixes avec voyelle d'avant et suffixes avec voyelle d'arrière), ce qui est pertinent dans le cas de mots tels que analyysi "analyse" et molekyyli "molécule" pour lesquels les deux types de suffixation se rencontrent dans l'usage de langue. Ce traitement a été également appliqué provisoirement pour les mots tels que afääri "affaire", amatööri "amateur" et dynamiitti "dynamite" pour lesquels cependant un seul type de suffixes est possible. Ce qui manque en l'occurrence, c'est un traitement qui prenne en compte la nature des voyelles et leur position dans le mot. C'est tout à fait possible mais cela n'a pas été fait pour le moment. L'usage du dictionnaire des mots dysharmoniques ne pose cependant aucun problème avec Unitex puisqu'il s'agit d'un processus de reconnaissance de mots (les mots seront toujours correctement identifiés alors que le dictionnaire contient des formes impossibles)
Le dictionnaire des mots dysharmoniques contient XX lemmes (uniquement des noms et des adjectifs), ce qui correspond à environ XX des mots dysharmoniques (XX) de l'ensemble des dictionnaires.
(1) | tuletko,tulla.V+PRES+2SG+PCL2 | viens-tu ? |
(2) | unissanikin,uni.N+PL+INES+POSS1SG+PCL1 | dans mes rêves aussi |
(3) | ystäväkseen,ystävä.N+SG+TRANS+POSS3 | son ami (translatif) |
(4) | suhteellisuusteoriassa,suhteellisuusteoria.N+SG+INES | dans la théorie de la relativité |
(5) | rautatieasemallako,rautatieasema.N+SG+ADES+PCL2 | à la gare ? |
(6) | valokuvaajineenkin,valokuvaaja.N+PL+COM+POSS3+PCL1 | avec son photographe aussi |
Ces mots sont analysés au moyen du programme Dialex, disponible en ligne de commande. Ce programme permet de reconnaître et d'analyser les mots complexes en utilisant comme ressources les différents dictionnaires de mots simples et quelques dictionnaires spécifiques.
Il présente les mêmes fonctionnalités que le programme Dico d'Unitex ; à partir de la liste de mots d'un texte prétraité par les programmes d'Unitex, il reconnaît et analyse les mots simples et complexes et produit en sortie un dictionnaire des mots du texte. Dialex applique ainsi les dictionnaires Delfin en prenant en compte les règles de composition et de suffixation des clitiques définies dans un fichier de règles.
Ce programme, élaboré en collaboration avec Johan Brault-Baron (étudiant informaticien stagiaire), est écrit en langage C, comme les autres programmes intégrés dans la plateforme Unitex. Un programme annexe, écrit en Python, permet de générer une analyse en arbre des mots complexes.
Les règles de suffixation décrivent un mot complexe comme la concaténation d'un mot fléchi avec un ou plusieurs clitiques. Le lemme du mot complexe est alors le lemme du mot fléchi issu de l'un des dictionnaires. Dans l'exemple (1) tuletko "viens-tu ?", l'axiome (7) et la règle de suffixation (8) reconnaissent ce mot comme une forme complexe du mot fléchi tulet "tu viens" augmenté de la particule clitique interrogative -ko. La règle (8) explicite la suffixation alors que l'axiome (7) identifie le produit de la suffixation comme une séquence valide. Dans cet exemple, le mot fléchi tulet "tu viens" appartient au dictionnaire des verbes et le suffixe -ko appartient au dictionnaire des clitiques.
(7) axiome : | V+PRES+2SG+PCL2 |
(8) règle : | V+PRES+2SG+PCL2->V+PRES+2SG*PCL2 |
ligne du dictionnaire de sortie : | tuletko,tulla.V+PRES+2SG+PCL2 |
lignes des dictionnaires utilisés : | tulet,tulla.V+PRES+2SG | DELFIN_V |
ko,.PCL2 | DELFIN_liitteet |
Les règles de composition décrivent un mot complexe comme la concaténation de deux mots fléchis. Le lemme du mot composé est obtenu par concaténation du premier composant du mot fléchi et du lemme du second. Dans l'exemple (4) suhteellisuusteoriassa "dans la théorie de la relativité", l'axiome (9) et la règle de composition (10) reconnaissent ce mot complexe comme un mot composé à l'inessif, formé à partir des mots suhteellisuus "relativité" et teoria "théorie" ; la règle (10) explicite la composition alors que l'axione (9) identitife le produit de la composition comme une séquence valide. Dans cet exemple, les mots fléchis suhteellisuus et teoriassa appartiennent tous les deux au dictionnaire des noms.
(9) axiome : | N+SG+NOM+N+SG+INES |
(10) règle : | N+SG+NOM+N+SG+INES-> N+SG+NOM*N+SG+INES |
ligne du dictionnaire de sortie : | suhteellisuusteoriassa,suhteellisuusteoria.N+SG+INES |
lignes des dictionnaires utilisés : | suhteellisuus,.N+SG+NOM | DELFIN_N |
teoriassa,.N+SG+INES | DELFIN_N |
Les règles de suffixation et de composition sont récursives et permettent ainsi l'analyse des mots complexes qui contiennent plusieurs clitiques ainsi que les mots composés formés de plus de deux composants comme le mot (5) rautatieasema "gare de chemin de fer", formé à partir des mot rauta "fer", tie "chemin" et asema "gare".
(11) axiome : | N+SG+TRANS+POSS3 |
(12) règle : | N+SG+TRANS+POSS3->N+SG+TRANS+X*POSS3+X |
Cette analyse produit une ligne de dictionnaire dans laquelle les marques d'allomorphie sont supprimées :
ligne du dictionnaire de sortie : | ystäväkseen,ystävä.N+SG+TRANS+POSS3 |
lignes des dictionnaires utilisés : | ystäväkse,.N+SG+TRANS+X | DELFIN_allomorfit |
en,.POSS3+X | DELFIN_liitteet |
DELFIN_liiteet |
ni,.POSS1SG si,.POSS2SG mme,.POSS1PL nne,.POSS2PL nsä,.POSS3 nsa,.POSS3 in,.POSS3+X en,.POSS3+X ön,.POSS3+X on,.POSS3+X än,.POSS3+X an,.POSS3+X kin,.PCL1 kaan,.PCL1 kään,.PCL1 han,.PCL3 hän,.PCL3 ko,.PCL2 kö,.PCL2 pa,.PCL2 pä,.PCL2 kos,.PCL2+PCL3 kös,.PCL2+PCL3 pas,.PCL2+PCL3 päs,.PCL2+PCL3 |
Les trois paradigmes de particules clitiques :
particules clitiques | ||
PCL1 | PCL2 | PCL2 |
-kin -kaan -kään |
-ko -kö -pa -pä |
-han -hän -s |
Les différentes combinaisons de clitiques sont représentées ici par un graphe :
Graphe des particules clitiques |
DELFIN_YSMO (extrait) |
... aakkos,.YSMO apulais,.YSMO irto,.YSMO neli,.YSMO oiko,.YSMO pien,.YSMO pipar,.YSMO seka,.YSMO taka,.YSMO tele,.YSMO ulko,.YSMO ylä,.YSMO ääntämis,.YSMO ... |
DELFIN_allomorfit (extrait) |
... ystävä,ystävä.N+SG+NOM+X ystävä,ystävä.N+PL+NOM+X ystävä,ystävä.N+SG+GEN+X ystävie,ystävä.N+PL+GEN+X ystäväkse,ystävä.N+SG+TRANS+X ystävikse,ystävä.N+PL+TRANS+X ystävää,ystävä.N+SG+ILL+X ystävihi,ystävä.N+PL+ILL+X ystävine,ystävä.N+PL+COM+X ... |
Représentation en arbre de l'analyse des mots complexes précédents :
tuletko | |
unissanikin | |
ystäväkseen | |
suhteellisuusteoriassa | |
rautatieasemallako | |
valokuvaajineenkin |