5 Créer et manipuler de nouveaux corpus
5.4 Enchaînement canonique des opérations d’un module d’import
Le module d’import de documents au format texte brut (TXT + CSV) correspond typiquement à la succession des opérations de normalisation suivante :
-
on récupère les fichiers d’extension « .txt » du répertoire source ;
-
on les transforme en XML et on ajoute éventuellement les métadonnées aux textes à partir du fichier « metadata.csv » qui se trouve dans le répertoire des sources ;
-
on crée la version XML-TEI TXM des textes ;
-
on crée une représentation des textes pour leur appliquer le logiciel TreeTagger et on injecte le résultat du logiciel dans les représentations XML-TEI TXM ;
-
on indexe les mots et on crée les éditions de textes ;
-
à ce moment là le corpus est disponible dans TXM pour être partitionné, créer des sous-corpus, manipuler les structures internes des textes et les propriétés de mots.