Lemmatisation

Lemmatiseur du latin médiéval

Le logiciel TreeTagger, développé pour le marquage morphosyntaxique (POS – Part of Speech), permet également la lemmatisation. Nous proposons ici à la fois les paramètres nécessaires à son utilisation avec des textes en latin médiéval, et les fichiers permettant de recréer ces paramètres.

Paramètres pour la lemmatisation d’un corpus de latin médiéval, issus de la commande :

train-tree-tagger -cl 3 -dtg 0.50 -sw 1.00 -ecw 0.30 -atg 0.35 -utf8 lexicon.csv classes.txt treebank.csv mediolatin.par

Paramètres à télécharger (v0.6, 10Mo, 02/2014), obtenus à partir de la liste des formes (v0.6) et du corpus d’entraînement (v0.6).
Archives :
- Paramètres v0.5 (11Mo, 12/2012).
- Paramètres v0.4 (11Mo, 10/2012).

Ces paramètres [PARAM] permettent d’obtenir un texte lemmatisé [LEMME] à partir d’un texte tokenisé [TOKEN] (cf. infra) par la commande suivante :

tree-tagger -token -lemma -cap-heuristics [PARAM] [TOKEN] [LEMME]

La commande tree-tagger sort par défaut la liste des POS, mais elle autorise plusieurs options, parmi lesquelles :

-token : sort aussi les token.
-lemma : sort aussi les lemmes.
-sgml : ne tient pas compte des balises entre chevrons.
-threshold [COEFF] : sort tous les tags dont la probabilité est supérieure à un seuil.
-prob : sort aussi les probabilités.
-ignore-prefix : ignore les préfixes pour les mots inconnus.
-no-unknown : sort le token comme lemme, à la place de « unknown ».
-cap-heuristics : ne tient pas compte de la capitale initiale pour les mots inconnus.
-quiet : mode silence.
-lex [LEXIC] : ajoute un lexicon auxiliaire.
-proto : sort aussi les informations lexicales.
-proto-with-prob : sort aussi les informations et les probabilités lexicales.
-base : n’utilise que les probabilités lexicales.

Apprentissage

La commande train-tree-tagger autorise plusieurs options, qu’il est vivement conseillé de tester :

-st : tag de ponctuation forte, par défaut « SENT ».
-utf8 : encodage en UTF8.
-cl : nombre de mots précédents formant le contexte statistique, par défaut 2 (trigramme).
-dtg : seuil minimum dans l’arbre de décision.
-sw : adoucissement de la probabilité par ascendance.
-ecw : poids de l’équivalence des classes.
-atg : seuil minimum de l’affix tree, par défaut 1,2.

Fichiers pour l’apprentissage de TreeTagger en latin médiéval

Liste des POS (enregistrer la cible du lien).
Liste des formes (Lexicon) :
- Liste à télécharger (v0.6, 11Mo, 02/2014).
- Archives :
  - Liste v0.5 (10Mo, 12/2012).
  - Liste v0.4 (12Mo, 10/2012).

Corpus d’entraînement (Treebank) :
- Corpus à télécharger (v0.6, 2Mo, 02/2014) : environ 570 000 lignes.
- Archives :
  - Corpus v0.5 (0.7Mo, 12/2012) : environ 275 000 lignes.
  - Corpus v0.4 (0.5Mo, 10/2012) : environ 200 000 lignes.

Sources complémentaires

Liste de lemmes et variantes à télécharger (v0.6, 1Mo, 02/2014) : environ 72 000 lignes.
Script pour obtenir un texte tokenisé [TOKEN] à partir d’un texte simple [TEXTE] avec la commande : [SCRIPT] [TEXTE] [TOKEN]
- Script à télécharger (v0.6, 02/2014) (enregistrer la cible du lien).
- Archives :
  - Script v0.5 (12/2012) (enregistrer la cible du lien).
  - Script v0.4 (10/2012) (enregistrer la cible du lien).