5 Créer et manipuler de nouveaux corpus
5.3 Carte des modules d’import et des niveaux de représentation
La figure 5.1 cartographie les modules d’import dans l’imbrication des trois niveaux de représentation. L’imbrication d’un niveau dans un autre signifie qu’il est de même nature et bénéficie des mêmes services que celui dans lequel il est imbriqué. Plus un niveau est imbriqué profondément plus la représentation correspondante est explicite et normalisée :
-
Unicode TXT : le format texte brut, correspondant au périmètre le plus externe, est le format le plus élémentaire: une séquence de caractères ;
-
XML : le format XML est du texte brut ayant des contraintes supplémentaires comme la convention de la syntaxe des balises pour délimiter et qualifier des parties de texte ;
-
TEI : le format TEI est du XML ayant des contraintes supplémentaires comme la convention de nommage, de positions respectives et de sémantique de balises.
Le processus d’import consiste à transformer les sources depuis un format de départ plus ou moins riche et précis (les différents formats correspondent à des rectangles blancs dans la figure), en suivant les flèches correspondants aux différents modules d’import disponibles (représentés par des rectangles à la bordure épaisse), jusqu’au format « XML-TEI TXM » qui est un format compatible avec les recommandations standard de la TEI et suffisamment spécialisé pour être traitable par les outils internes de TXM. À partir du moment où les sources d’un corpus sont dans ce format, les outils d’indexation et de construction d’éditions peuvent finaliser directement la représentation interne du corpus (représentée par le rectangle [TXM - CQP / HTML] dans le cercle brun le plus foncé). La représentation XML-TEI TXM est la plus explicite et la plus normalisée de l’environnement d’import de TXM, et tous les corpus importés dans TXM sont représentés sous cette forme normalisée à un moment donné quel que soit leur format source de départ.
Illustration 5.1: Carte des modules d’import par niveau