5 Créer et manipuler de nouveaux corpus

5.4 Enchaînement canonique des opérations d’un module d’import

Le module d’import de documents au format texte brut (TXT + CSV) correspond typiquement à la succession des opérations de normalisation suivante :

  1. on récupère les fichiers d’extension « .txt » du répertoire source ;

  2. on les transforme en XML et on ajoute éventuellement les métadonnées aux textes à partir du fichier « metadata.csv » qui se trouve dans le répertoire des sources ;

  3. on crée la version XML-TEI TXM des textes ;

  4. on crée une représentation des textes pour leur appliquer le logiciel TreeTagger et on injecte le résultat du logiciel dans les représentations XML-TEI TXM ;

  5. on indexe les mots et on crée les éditions de textes ;

  6. à ce moment là le corpus est disponible dans TXM pour être partitionné, créer des sous-corpus, manipuler les structures internes des textes et les propriétés de mots.