5 Créer et manipuler de nouveaux corpus

5.3 Carte des modules d’import et des niveaux de représentation

La figure 5.1 cartographie les modules d’import dans l’imbrication des trois niveaux de représentation. L’imbrication d’un niveau dans un autre signifie qu’il est de même nature et bénéficie des mêmes services que celui dans lequel il est imbriqué. Plus un niveau est imbriqué profondément plus la représentation correspondante est explicite et normalisée :

Le processus d’import consiste à transformer les sources depuis un format de départ plus ou moins riche et précis (les différents formats correspondent à des rectangles blancs dans la figure), en suivant les flèches correspondants aux différents modules d’import disponibles (représentés par des rectangles à la bordure épaisse), jusqu’au format « XML-TEI TXM » qui est un format compatible avec les recommandations standard de la TEI et suffisamment spécialisé pour être traitable par les outils internes de TXM. À partir du moment où les sources d’un corpus sont dans ce format, les outils d’indexation et de construction d’éditions peuvent finaliser directement la représentation interne du corpus (représentée par le rectangle [TXM - CQP / HTML] dans le cercle brun le plus foncé). La représentation XML-TEI TXM est la plus explicite et la plus normalisée de l’environnement d’import de TXM, et tous les corpus importés dans TXM sont représentés sous cette forme normalisée à un moment donné quel que soit leur format source de départ.

Image40
Illustration 5.1: Carte des modules d’import par niveau