7 Corpus exemples livrés avec TXM
7.1 Le corpus VOEUX
Le corpus «VOEUX» a été édité par Jean-Marc Leblanc du laboratoire Céditec (Centre d’étude des discours, images, textes, écrits, communication) à Créteil Val de Marne. Il est composé de 54 transcriptions de vœux présidentiels aux caractéristiques suivantes :
-
septs présidents français : Pompidou (5 discours), de Gaulle (10 voeux), Giscard (7 voeux), Mitterand (14 voeux), Chirac (12 voeux), Sarkozy (5 voeux) et Hollande (1 voeu);
-
sur une période allant de 1959 à 2012.
Chaque transcription a été lemmatisée avec le logiciel TreeTagger en utilisant le modèle fr.par. Le jeu d'étiquettes morpho-syntaxiques est décrit sur le site de TreeTagger : http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html.
Le corpus est composé des éléments suivants :
-
unités structurelles : text (vœu) / p (paragraphe) / s (phrase)
-
chaque « text » comporte les propriétés suivantes :
-
annee : au format « yyyy »
-
loc : le nom du président
-
chaque unité lexicale comporte les propriétés suivantes :
-
word : forme graphique du mot ;
-
frpos : l'étiquette morphosyntaxique de TreeTagger ;
-
frlemma : le lemme de TreeTagger ;
-
lbn : le numéro de ligne dans le fichier source ;
-
sn : le numéro de la phrase calculé lors de l'import ;
-
pn : le numéro du paragraphe calculé lors de l'import.