Lemmatisation

Comité Du Cange

Lemmatiseur du latin médiéval

Le logiciel TreeTagger, développé pour le marquage morphosyntaxique (POS – Part of Speech), permet également la lemmatisation. Nous proposons ici à la fois les paramètres nécessaires à son utilisation avec des textes en latin médiéval, et les fichiers permettant de recréer ces paramètres.

Lemmatisation

Paramètres pour la lemmatisation d’un corpus de latin médiéval, issus de la commande :

train-tree-tagger -cl 3 -dtg 0.50 -sw 1.00 -ecw 0.30 -atg 0.35 -utf8 lexicon.csv classes.txt treebank.csv mediolatin.par

Ces paramètres [PARAM] permettent d’obtenir un texte lemmatisé [LEMME] à partir d’un texte tokenisé [TOKEN] (cf. infra) par la commande suivante :

tree-tagger -token -lemma -cap-heuristics [PARAM] [TOKEN] [LEMME]

La commande tree-tagger sort par défaut la liste des POS, mais elle autorise plusieurs options, parmi lesquelles :
  • -token : sort aussi les token.
  • -lemma : sort aussi les lemmes.
  • -sgml : ne tient pas compte des balises entre chevrons.
  • -threshold [COEFF] : sort tous les tags dont la probabilité est supérieure à un seuil.
  • -prob : sort aussi les probabilités.
  • -ignore-prefix : ignore les préfixes pour les mots inconnus.
  • -no-unknown : sort le token comme lemme, à la place de « unknown ».
  • -cap-heuristics : ne tient pas compte de la capitale initiale pour les mots inconnus.
  • -quiet : mode silence.
  • -lex [LEXIC] : ajoute un lexicon auxiliaire.
  • -proto : sort aussi les informations lexicales.
  • -proto-with-prob : sort aussi les informations et les probabilités lexicales.
  • -base : n’utilise que les probabilités lexicales.

Apprentissage

La commande train-tree-tagger autorise plusieurs options, qu’il est vivement conseillé de tester :
  • -st : tag de ponctuation forte, par défaut « SENT ».
  • -utf8 : encodage en UTF8.
  • -cl : nombre de mots précédents formant le contexte statistique, par défaut 2 (trigramme).
  • -dtg : seuil minimum dans l’arbre de décision.
  • -sw : adoucissement de la probabilité par ascendance.
  • -ecw : poids de l’équivalence des classes.
  • -atg : seuil minimum de l’affix tree, par défaut 1,2.

Fichiers pour l’apprentissage de TreeTagger en latin médiéval

  1. Liste des POS (enregistrer la cible du lien).
  2. Liste des formes (Lexicon) :
  1. Corpus d’entraînement (Treebank) :

Sources complémentaires

  1. Liste de lemmes et variantes à télécharger (v0.6, 1Mo, 02/2014) : environ 72 000 lignes.
  2. Script pour obtenir un texte tokenisé [TOKEN] à partir d’un texte simple [TEXTE] avec la commande : [SCRIPT] [TEXTE] [TOKEN]

Les fichiers et les paramètres de lemmatisation sont mis à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.