Velum Programme – Glossaria

Qu'est-ce que le projet ANR Velum ?

Ce projet est une première étape vers une plate-forme innovante pour l’étude des langues et cultures de l’Europe médiévale. La civilisation médiévale ne peut être étudiée qu’au travers des traces parvenues jusqu’à nous. Les textes, très variés et conservés en grande quantité, sont notre principale source de connaissance. Écrits pour la plupart en latin médiéval, dans un contexte social sans rien de commun, tant avec l’Antiquité qu’avec notre époque, ils n’ont pas bénéficié des progrès récents en linguistique computationnelle.

Pour répondre à ce défi, nous souhaitons construire, en premier lieu, un grand corpus équilibré de textes médiolatins écrits dans toute l’Europe entre 800 et 1200. Au-delà d’une large couverture géographique et chronologique, ce corpus reflétera la diversité des genres littéraires pratiqués au Moyen âge, autant que la richesse fonctionnelle de la culture écrite médiévale. Pour permettre leur traitement automatique, les textes seront pourvus d’une annotation (parties du discours, lemmes, géographie, chronologie, typologie). La compilation et l’annotation du corpus ne formeront que la première étape du projet. En second lieu, un outil d’interrogation du corpus sera construit, pour permettre aux utilisateurs d’interroger les textes, et de bénéficier de leur riche annotation linguistique à travers une interface très maniable. En troisième lieu, des outils permettant l’analyse statistique et la visualisation de données seront développés, afin que les utilisateurs les incluent dans leur propre chaîne de travail. Essentiellement écrits pour R, les scripts, programmes et autres fonctions permettront une étude avancée du vocabulaire médiolatin, tout en restant applicables à d’autres langues.

Le projet profitera de l’exceptionnelle infrastructure documentaire et numérique de l’Institut de Recherche et d’Histoire des Textes (CNRS), fort d’une bibliothèque de 120 000 volumes, et d’un pôle numérique qui fournira aide et support à toutes les étapes du processus. L’équipe du coordinateur couvre diverses spécialités (linguistique computationnelle, lexicographie, histoire) destinées à collaborer étroitement. Le recrutement d’un(e) jeune chercheur/se est prévu pour une durée de 36 mois. Outils et textes développés dans le cadre de ce financement seront mis librement à la disposition de la communauté scientifique, sur le site internet du projet et dans des dépôts ouverts de données numériques. Ce mode de dissémination devrait non seulement faciliter la recherche, mais aussi influencer les pratiques courantes de la recherche historique et philologique, en promouvant des approches automatiques de « lecture distante » envers les textes anciens.