6 Formats importables dans TXM

6.2 Transcriptions d’enregistrements

6.2.1 XML de Transcriber (.trs) : module XML Transcriber+CSV

6.2.1.1 Entrée

Corps de texte

Ce module prend en entrée un dossier de transcriptions au format XML-TRS (extension '.trs'). Elles doivent être accompagnées du fichier « trans-14.dtd » pour être valides. Chaque transcription sera considérée comme une seule unité documentaire ou texte.

Les transcriptions doivent répondre au cahier des charges défini : http://sourceforge.net/projects/txm/files/documentation/Guide de Transcription d_entretiens Transcriber-TXM 0.2_FR.pdf/download

Métadonnées de texte

Les métadonnées des textes sont encodées dans un fichier au format CSV

 nommé « metadata.csv » situé dans le même dossier que les fichiers sources.

Le séparateur de colonnes est « , ». Le caractère de champ34 est « " ».

La première ligne d'entête nomme chaque métadonnée.

La première colonne doit être nommée « id », les suivantes sont nommées à la discrétion de l'utilisateur mais sans utiliser de caractères accentués ou spéciaux.

La première colonne doit contenir le nom du fichier source (sans extension) qui correspond aux métadonnées de la ligne.

Les métadonnées seront injectées au niveau de chaque transcription, si elles sont présentes.

Paramétrage

Ce module utilise un fichier de paramètres appelé « import.properties » se trouvant dans le même dossier que les transcriptions.

Il permet de définir trois paramètres :

6.2.1.2 Sortie

La structure des fichiers XML de Transcriber est reproduite :

 

Les deux formes d'événements Transcriber sont gérées :

Les descriptions associées aux événements ponctuels sont portées par le mot suivant.

Pour les événements à empan, les descriptions sont concaténées dans la propriété lexicale « event » des mots compris entre les événements « begin » et « end ».

 

Certaines métadonnées sont dupliquées au niveau des mots (spk) et des structures (u@spkattrstextAttr@<metadata>div@topic@endtime@starttime@typesp@speaker@endtime@starttime@overlap, event@type@desc) pour faciliter la construction de sous-corpus.

6.2.1.3 Annotation

Des annotations morphosyntaxiques et le lemme sont ajoutés avec TreeTagger36.

6.2.1.4 Édition

L'édition reproduit celle de Transcriber. On retrouve au début de chaque texte (ou transcription) la liste des métadonnées correspondantes.

Les textes sont paginés par nombre de mots après un tour de parole.

Les événements et commentaires apparaissent entre parenthèses.

Les indications de synchronisation apparaissent entre crochets.


34  le caractère de champ permet d'encadrer des valeurs complexes contenant notamment des espaces ou des caractères délimiteurs de colonnes.

35  Cette dernière information n'est pas utilisée dans cette version du logiciel.

36  Pour les transcriptions en français, il est conseillé d'utiliser le modèle linguistique TreeTagger développé pour l'écrit et pour l'oral dans le cadre du projet PERCEO <http://www.cnrtl.fr/corpus/perceo>.