5 Créer et manipuler de nouveaux corpus
5.2 Philologie progressive : les trois principaux niveaux de représentation textuelle importables
L’environnement d’importation de sources de TXM est conçu de sorte à pouvoir choisir un niveau de représentation des sources plus ou moins riche, et donc plus ou moins coûteux à préparer, en fonction de ses besoins d’analyse avec l’outil :
-
texte brut (TXT) : une représentation élémentaire comme le texte brut (une séquence de caractères) peut être importée dans un premier temps dans TXM et déjà offrir les services d’analyse de base. Tous les formats textuels non standard peuvent être convertis15 en TXT pour pouvoir bénéficier de ce premier type d’import (PDF, MS Word, LibreOffice Writer, etc.). Le système d’encodage des caractères privilégié dans TXM pour le texte brut est l’encodage Unicode (Unicode Consortium, 1996) ;
-
texte encodé en XML : si cela s’avère pertinent, les sources peuvent être augmentées en une représentation plus évoluée comme par exemple avec un balisage XML (Bray, Paoli, Sperberg-McQueen, Maler, & Yergeau, 2008a)16 pour être ré-importées dans TXM et bénéficier d’autres possibilités de manipulation de corpus et d’analyse (disponibilité de structures internes, de pré-codage de mots particuliers, etc.) ;
-
texte encodé en XML selon les recommandations de la TEI (TEI Consortium, 2017) : à partir du moment où l’on investit dans l’encodage XML, il devient alors intéressant d’appliquer les principes du consortium TEI pour l’encodage XML pour pouvoir bénéficier de certains services supplémentaires de TXM (réglage de la construction des éditions, construction d’éditions synoptiques, etc.).
Avec TXM on peut donc moduler l’investissement dans la préparation des sources en fonction des besoins d’analyse. Par exemple on peut commencer en texte brut et s’y limiter si les analyses obtenues sont satisfaisantes. Le Tableau 1: Table des niveaux d'import TXM illustre les différents niveaux de services offerts par la plateforme en fonction du niveau de représentation choisi :
|
|
|
Niveaux de représentation en entrée |
||
|
|
|
TXT |
XML/w |
XML-TEI |
Services obtenus |
Unités Textuelles |
|
fichiers |
fichiers |
fichiers |
Métadonnées |
|
CSV |
CSV |
teiHeader |
|
Mots |
|
brut |
<w>? |
<w>? |
|
Structures |
|
- |
toutes |
spécifique |
|
Plans textuels |
|
- |
XSL frontale |
spécifique |
Tableau 1: Table des niveaux d'import TXM
En colonnes, les niveaux de représentation :
-
« TXT » tel qu’importé par le module d’import « TXT + CSV » ;
-
« XML/w » tel qu’importé par le module d’import « XML/w + CSV »17 ;
-
« XML-TEI » tel qu’importé par un module comme « XTZ + CSV » ou encore « XML-TEI BFM ».
Chaque ligne correspond à un élément du modèle de corpus de la plateforme plus ou moins disponible selon le niveau de représentation choisi :
-
Unités textuelles : tous les niveaux de représentation associent une unité textuelle à un fichier de sources. Pour chaque fichier source il y aura un texte et une édition dans le corpus ;
-
Métadonnées : les deux premiers niveaux importent les métadonnées de textes par le biais d’un tableau de métadonnées appelé « metadata.csv » (voir section ci-dessous). En TEI les métadonnées peuvent provenir d’un encodage dans le teiHeader. Remarque : le fichier « metadata.csv » n’est pas obligatoire pour un import, donc l’utilisateur peut l’encoder et le fournir ou non suivant ses besoins d’analyse. Ceci constitue une deuxième dimension de progression philologique ;
-
Mots : en texte « brut », les mots ne peuvent qu’être calculés automatiquement par TXM en fonction du système d’écriture utilisé par le corpus. En XML et en XML-TEI, il est possible de pré-coder de façon précise la délimitation et les propriétés de certains ou de tous les mots du corpus. Remarque : le pré-codage optionnel de mots, à ne réaliser que si cela est utile à l’analyse, est une troisième dimension de progression philologique ;
-
Structures : n’ayant pas de mécanisme de délimitation particulier, le texte brut ne peut pas disposer de structures textuelles. En XML tout venant, toutes les délimitations par balises correspondent à des structures textuelles (sauf la balise <w> réservée aux mots). En TEI certaines balises correspondent aux structures textuelles. Remarque : En XML, le balisage progressif, à ne réaliser que si cela est utile à l’analyse, est une quatrième dimension de progression philologique ;
-
Plans textuels : le texte brut n’ayant pas de mécanisme de délimitation aucun plan textuel n’est mobilisable. En XML, le module d’import XML/w+CSV propose d’appliquer n’importe quelle feuille de transformation XSLT sur les sources avant de les traiter (la XSL frontale). De cette façon, la XSL va permettre de calculer par exemple le « hors texte » à la volée. Le module d’import XTZ+CSV offre 4 phases successives de transformation XSLT pour offrir plus de possibilités de manipulation de plans textuels. En encodage XML-TEI, certaines balises pourront correspondre à différents plans textuels.
15 Voir les différentes macros TXM utiles pour faire ces conversions <https://groupes.renater.fr/wiki/txm-users/public/macros>.
16 Voir la macro TXT2XML pour faciliter la conversion par lot de fichiers TXT vers XML.
17 Le « /w » dans le nom du module exprime le fait que le module interprète spécifiquement les balises XML <w>...</w> dans les sources comme encodant directement des unités lexicales (mots).