6 Formats importables dans TXM
6.2 Transcriptions d’enregistrements
6.2.1 XML de Transcriber (.trs) : module XML Transcriber+CSV
6.2.1.1 Entrée
Corps de texte
Ce module prend en entrée un dossier de transcriptions au format XML-TRS (extension '.trs'). Elles doivent être accompagnées du fichier « trans-14.dtd » pour être valides. Chaque transcription sera considérée comme une seule unité documentaire ou texte.
Les transcriptions doivent répondre au cahier des charges défini : http://sourceforge.net/projects/txm/files/documentation/Guide de Transcription d_entretiens Transcriber-TXM 0.2_FR.pdf/download
Métadonnées de texte
Les métadonnées des textes sont encodées dans un fichier au format CSV
nommé « metadata.csv » situé dans le même dossier que les fichiers sources.
Le séparateur de colonnes est « , ». Le caractère de champ34 est « " ».
La première ligne d'entête nomme chaque métadonnée.
La première colonne doit être nommée « id », les suivantes sont nommées à la discrétion de l'utilisateur mais sans utiliser de caractères accentués ou spéciaux.
La première colonne doit contenir le nom du fichier source (sans extension) qui correspond aux métadonnées de la ligne.
Les métadonnées seront injectées au niveau de chaque transcription, si elles sont présentes.
Paramétrage
Ce module utilise un fichier de paramètres appelé « import.properties » se trouvant dans le même dossier que les transcriptions.
Il permet de définir trois paramètres :
-
removeInterviewer : vaut « true » ou « false », indique s'il faut ignorer les paroles des interviewers. Les interviewers de chaque texte sont définis dans les colonnes « enqN » (N un nombre) du fichier metadata.csv;
-
metadataList : la liste des métadonnées. Chaque métadonnée est séparée de la suivante par le caractère « | », ex : titre|date|lieu
-
csvHeaderNumber le nombre de lignes d'entête du fichier CSV (s'il existe) :
-
1 = il n'y a que les identifiants des métadonnées ;
-
2 = il y a une ligne d'identifiants et une ligne d'identifiants longs ;
-
3 = il y a une ligne d'identifiants, une ligne d'identifiants longs puis le type de la métadonnée35.
6.2.1.2 Sortie
La structure des fichiers XML de Transcriber est reproduite :
-
une section Transcriber correspond à la structure div ;
-
un tour de parole correspond à la structure « u » (pour 'utterance', de la TEI) ;
-
un segment de parole correspond à la structure sp.
Les deux formes d'événements Transcriber sont gérées :
-
ponctuels : commentaires, bruit court ;
-
sur empan de mots : prononciation, incertitudes...
Les descriptions associées aux événements ponctuels sont portées par le mot suivant.
Pour les événements à empan, les descriptions sont concaténées dans la propriété lexicale « event » des mots compris entre les événements « begin » et « end ».
Certaines métadonnées sont dupliquées au niveau des mots (spk) et des structures (u@spkattrs, textAttr@<metadata>, div@topic@endtime@starttime@type, sp@speaker@endtime@starttime@overlap, event@type@desc) pour faciliter la construction de sous-corpus.
6.2.1.3 Annotation
Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger36.
6.2.1.4 Édition
L'édition reproduit celle de Transcriber. On retrouve au début de chaque texte (ou transcription) la liste des métadonnées correspondantes.
Les textes sont paginés par nombre de mots après un tour de parole.
Les événements et commentaires apparaissent entre parenthèses.
Les indications de synchronisation apparaissent entre crochets.
34 le caractère de champ permet d'encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.
35 Cette dernière information n'est pas utilisée dans cette version du logiciel.
36 Pour les transcriptions en français, il est conseillé d'utiliser le modèle linguistique TreeTagger développé pour l'écrit et pour l'oral dans le cadre du projet PERCEO <http://www.cnrtl.fr/corpus/perceo>.