5 Créer et manipuler de nouveaux corpus

5.2 Philologie progressive : les trois principaux niveaux de représentation textuelle importables

L’environnement d’importation de sources de TXM est conçu de sorte à pouvoir choisir un niveau de représentation des sources plus ou moins riche, et donc plus ou moins coûteux à préparer, en fonction de ses besoins d’analyse avec l’outil :

  1. texte brut (TXT) : une représentation élémentaire comme le texte brut (une séquence de caractères) peut être importée dans un premier temps dans TXM et déjà offrir les services d’analyse de base. Tous les formats textuels non standard peuvent être convertis15 en TXT pour pouvoir bénéficier de ce premier type d’import (PDF, MS Word, LibreOffice Writer, etc.). Le système d’encodage des caractères privilégié dans TXM pour le texte brut est l’encodage Unicode (Unicode Consortium, 1996) ;

  2. texte encodé en XML : si cela s’avère pertinent, les sources peuvent être augmentées en une représentation plus évoluée comme par exemple avec un balisage XML (Bray, Paoli, Sperberg-McQueen, Maler, & Yergeau, 2008a)16 pour être ré-importées dans TXM et bénéficier d’autres possibilités de manipulation de corpus et d’analyse (disponibilité de structures internes, de pré-codage de mots particuliers, etc.) ;

  3. texte encodé en XML selon les recommandations de la TEI (TEI Consortium, 2017) : à partir du moment où l’on investit dans l’encodage XML, il devient alors intéressant d’appliquer les principes du consortium TEI pour l’encodage XML pour pouvoir bénéficier de certains services supplémentaires de TXM (réglage de la construction des éditions, construction d’éditions synoptiques, etc.).

Avec TXM on peut donc moduler l’investissement dans la préparation des sources en fonction des besoins d’analyse. Par exemple on peut commencer en texte brut et s’y limiter si les analyses obtenues sont satisfaisantes. Le Tableau 1: Table des niveaux d'import TXM illustre les différents niveaux de services offerts par la plateforme en fonction du niveau de représentation choisi :

 

 

 

Niveaux de représentation en entrée

 

 

 

TXT

XML/w

XML-TEI

Services obtenus      

Unités Textuelles

 

fichiers

fichiers

fichiers

Métadonnées

 

CSV

CSV

teiHeader

Mots

 

brut

<w>?

<w>?

Structures

 

-

toutes

spécifique

Plans textuels

 

-

XSL frontale

spécifique

Tableau 1: Table des niveaux d'import TXM

En colonnes, les niveaux de représentation :

  1. « TXT » tel qu’importé par le module d’import « TXT + CSV » ;

  2. « XML/w » tel qu’importé par le module d’import « XML/w + CSV »17 ;

  3. « XML-TEI » tel qu’importé par un module comme « XTZ + CSV » ou encore « XML-TEI BFM ».

Chaque ligne correspond à un élément du modèle de corpus de la plateforme plus ou moins disponible selon le niveau de représentation choisi :


15  Voir les différentes macros TXM utiles pour faire ces conversions <https://groupes.renater.fr/wiki/txm-users/public/macros>.

16  Voir la macro TXT2XML pour faciliter la conversion par lot de fichiers TXT vers XML.

17  Le « /w » dans le nom du module exprime le fait que le module interprète spécifiquement les balises XML <w>...</w> dans les sources comme encodant directement des unités lexicales (mots).