5 Créer et manipuler de nouveaux corpus

5.1 Principes généraux d’import : les trois types de sources textuelles exploitables

La plateforme TXM est conçue pour importer et analyser trois grands types de corpus textuels :

  1. les corpus de textes écrits, comprenant éventuellement des éditions paginées incluant des images de fac-similés (comme par exemple de manuscrits médiévaux, d'auteur ou encore d'élèves) ;

  2. les corpus de transcriptions d'enregistrements, éventuellement synchronisées avec la source audio ou vidéo ;

  3. les corpus multilingues alignés au niveau d'une structure textuelle comme la phrase ou le paragraphe.

L'importation consiste à lire les fichiers sources d’un corpus pour en construire une représentation interne au sein de TXM, appelée « corpus TXM », qui est ensuite utilisée pour son exploitation. Cette représentation est à la base de tous les calculs réalisés par TXM sur un corpus. Elle est composée des éléments fondamentaux suivants :

À chaque unité textuelle correspond une édition du texte au format HTML destinée à la lecture cursive et au « retour au texte » depuis les commandes d'analyse. Selon le type de corpus l’édition peut être paginée, disposer de mise en page, de styles ainsi que d’illustrations sous forme d’images.

Pour les corpus de textes écrits, la pagination de l'édition peut être alignée avec les fichiers images de fac-similés (folios de manuscrits, pages d'édition ou de manuscrits, etc.). Ce qui permet la lecture synoptique image de fac-similé et page d'édition en vis-à-vis dans TXM.

L'importation d'un corpus est l'occasion d'équiper automatiquement chaque mot d'un texte avec son lemme et sa catégorie morphosyntaxique à l'aide de logiciels comme TreeTagger.

Les corpus de transcriptions d'enregistrements peuvent être synchronisés avec les fichiers vidéo ou audio d'origine. Ce qui permet de jouer à la demande les passages vidéo ou audio correspondant à la transcription dans TXM.

Les corpus alignés sont alignés au niveau d'une structure interne (phrase, paragraphe, etc.). Ce qui permet de chercher simultanément dans les deux langues, ou dans les deux versions d'un même texte par exemple, l'apparition de mots se trouvant dans des passages alignés.

Enfin, les modules d’import les plus évolués peuvent adapter leurs traitements en fonction de différentes parties de chaque texte pour construire ce qu’on appelle les plans textuels. Ils peuvent par exemple ignorer des parties (le « hors texte »), éditer des parties sans que leurs mots soient indexés par le moteur de recherche, éditer certaines parties sous forme de notes de bas de page, etc.