5 Créer et manipuler de nouveaux corpus
5.5 Création d’un corpus par appel d’un module d’import
Pour créer un nouveau corpus dans TXM on lance un module d’import à l’aide du menu « Fichier > Importer ». Tous les modules d’import prennent en entrée un chemin vers le répertoire contenant les fichiers sources du corpus, sauf le module d’import « Presse-papier » qui utilise directement le contenu du presse-papier du système d’exploitation.
5.5.1 Import à partir du presse-papier
L’import presse-papier est la façon la plus simple et la plus rapide, mais aussi la plus limitée, pour créer un corpus dans TXM. Il suffit de :
copier n’importe quel texte depuis un logiciel (par exemple un traitement de texte – MS Word ou LibreOffice Writer, ou un lecteur de fichier PDF – Adobe Acrobat, ou un navigateur web – FireFox ou Internet Explorer ouvert sur une page, ou encore un logiciel de messagerie – Thunderbird, etc.), ce qui se fait en général par :
sélection du texte avec la souris ou avec le clavier (raccourcis clavier Control-A, Command-A en Mac)
puis commande de menu ‘Éditer > Copier’ de l’application (raccourcis clavier Control-C, Command-C en Mac) ;
-
puis ensuite de lancer la commande TXM « Fichier > Importer > Presse-papier ».
Le résultat est un nouveau corpus ayant un nom calculé automatiquement « PRESSEPAPIER* » composé d’un seul texte (factice) contenant les mots trouvés dans le presse-papier considéré comme du texte brut. Si TreeTagger est installé et configuré pour TXM les mots sont également lemmatisés selon la langue choisie dans la préférence « TXM / Utilisateur / Import / Clipboard / Default language ».
5.5.2 Modules d’import à partir de fichiers sources
Chaque format de source (TXT, XML, TEI, etc.) correspond à un module d’import du menu « Fichier > Importer » :
Module |
Format |
TXT + CSV |
fichiers de texte brut (.txt) + tableau de métadonnées (metadata.csv) |
ODT/DOC/RTF + CSV |
fichiers de traitement de texte (.doc, .odt, etc.) |
XML/w + CSV |
fichiers XML (.xml) |
XTZ + CSV |
fichiers XML avec des balises TEI optionnelles |
XML-TEI BFM |
fichiers XML-TEI de la Base de Français Médiévale (BFM) |
XML-TEI Frantext |
fichiers XML-TEI libres de droits de Frantext |
XML-TEI TXM |
fichiers XML-TEI normalisés pour TXM |
XML Transcriber + CSV |
fichiers XML de transcription selon le schéma XML du logiciel Transcriber |
XML Factiva |
fichiers exportés au format XML depuis le portail Factiva |
XML-TMX |
fichiers XML de corpus multilingues alignés (mémoires de traduction) |
Factiva TXT |
fichiers exportés au format TXT depuis le portail Factiva |
CNR + CSV |
fichiers résultat du logiciel Cordial |
Alceste |
fichiers au format étoilé (****) des logiciels IRaMuTeQ et Alceste |
Hyperbase |
fichiers au format Hyperbase (&&&) |
CQP |
fichiers au format tabulé de CWB-CQP |
Le lancement d’un module d’import provoque l’ouverture de son formulaire de paramètres, similaire à celui de l’illustration 5.2) :
Illustration 5.2: Formulaire des paramètres d'import du module TXT + CSV.
Pour remplir le formulaire il faut d’abord commencer par sélectionner le dossier qui contient les fichiers sources, en cliquant sur l'icône « dossier » ou en cliquant sur le lien hypertexte « Sélectionner le répertoire des sources ».
On peut ensuite renseigner les autres paramètres, il faut ouvrir les différentes sections de paramètres en cliquant sur leur intitulé pour y accéder :
-
Nom du corpus : c'est l’identifiant dans TXM qui sera notamment affiché dans la vue corpus. Il doit obéir à un format très strict : il ne doit être composé que de majuscules non accentuées ou des chiffres et ne pas commencer par un chiffre. Tant que le nom n'est pas conforme à ce format, l'import ne peut pas commencer ;
-
Description : une description optionnelle du corpus en format libre (nom complet, auteur, date de production, numéro de version, licence de diffusion, commentaire, etc.). On peut utiliser des balises HTML pour la mise en forme (mise en gras, italique, intertitres, etc.).
L'affichage exact des sections suivantes dépend du module d'import utilisé :
-
Encodage des caractères : à préciser si l'encodage des caractères des textes sources est différent d'Unicode UTF-818. Le système d'encodage des caractères par défaut des textes varie suivant les systèmes d'exploitation :
-
Windows : en général « windows-1252 » ou « cp1252 » ;
Mac OS X : « x-MacRoman » ou « MacRoman » ;
Linux : « UTF-8 »
Si l'encodage varie en fonction des textes, ou que vous ne savez pas lequel choisir, vous pouvez sélectionner l'option « deviner » qui essaiera de déterminer l'encodage des textes automatiquement19 ;
-
Langue principale20 : utilisée pour les tris lexicographiques et le choix du modèle linguistique utilisé par TreeTagger quand l'option « Annoter le corpus » est sélectionnée. Comme pour le paramètre d'encodage des caractères, l'option « deviner » essaiera de déterminer automatiquement la langue des textes21.
-
Segmentation lexicale : vous pouvez régler le comportement du repérage des mots en modifiant quelque-uns de ses paramètres. Pour connaître les noms et valeurs par défaut de ces paramètres, voir le script : https://txm.svn.sourceforge.net/svnroot/txm/trunk/Toolbox/trunk/org.textometrie.toolbox/src/groovy/org/txm/tokenizer/TokenizerClasses.groovy)
-
Éditions : pour générer ou non des éditions de chaque texte du corpus (il est pratique de ne pas créer systématiquement des éditions quand on teste l'import d'un corpus de grande taille), le nombre de mots par page pour la pagination automatique ou le nom de la balise XML délimitant les pages dans le cas de modules d'import basés sur le format XML (balise <pb> par défaut).
-
Feuille XSL d'entrée : dans le cas de modules d'import basés sur le format XML, avant toute lecture des sources, TXM peut leur appliquer au préalable des feuilles de transformation XSLT22.
Commandes : permet de régler le comportement de certaines commandes.
Noms des structures délimitant les contextes de concordance. Par défaut, ce champ ne contient que la structure « text » (les contextes de concordances ne vont pas au delà des limites de chaque texte). On peut par exemple limiter les contextes de concordances de corpus de transcriptions aux limites des tours de parole en utilisant la structure « sp ». Dans ce cas le paramètre prend la valeur « text,sp » pour combiner les limites de ces deux structures.
-
Police d'affichage : choix d'une police de caractères particulière pour l'affichage des résultats et des éditions (utile pour les éditions de textes en langue ancienne).
Tous les paramètres d'importation sont sauvegardés dans un fichier nommé « import.xml » dans le dossier des sources.
Une fois les paramètres renseignés, on lance l’import en cliquant sur le bouton vert avec la flèche ou en cliquant sur le lien hypertexte « Lancer l’import du corpus ».
Le résultat est un nouveau corpus ajouté à la vue « Corpus » auquel on peut appliquer toutes les commandes TXM : Description, Lexique, Concordances, Édition, etc.
5.5.3 Fichier de métadonnées « metadata.csv »
Les modules nommés « XXX+CSV » sont des modules qui peuvent associer à chaque texte du corpus des métadonnées définies dans un fichier CSV23. Ce fichier doit être au format suivant :
-
le fichier se nomme « metadata.csv » ;
-
le séparateur de colonne est « , » ;
-
le séparateur de texte est « " » ;
-
l'encodage des caractères doit être UTF-824 ;
-
la première ligne - d'entête - sert à nommer chaque métadonnée ;
-
la première cellule de la première ligne - contenant « id » (en minuscule) - doit obligatoirement être renseignée. Elle définit la métadonnée « id » qui nommera chaque fichier de texte sans son extension ;
les cellules suivantes de la première ligne définissant les autres métadonnées sont nommées librement, mais doivent respecter quelques contraintes :
le nom est en minuscules
sans caractère spécial (par exemple : .,@ç%"#~&) ;
-
chacune des lignes suivantes du fichier (en dehors de la première) définit les valeurs des métadonnées d'un seul texte, en commençant dans la première colonne avec le nom du fichier contenant le texte (sans extension : « .txt », « .xml », « .cnr », etc.) et en continuant dans les colonnes suivantes avec les valeurs des métadonnées du texte.
5.5.3.1 Exemple de fichier « metadata.csv »
Voici les trois premières lignes du fichier « metadata.csv » du corpus exemple DISCOURS.
"id","loc","type","date"
01_DeGaulle,de Gaulle,Allocution radiotélévisée,27/06/1958
02_DeGaulle,de Gaulle,Allocution radiotélévisée,28/12/1958
03_DeGaulle,de Gaulle,Allocution radiotélévisée,30/01/1959
Pour que la relation entre les métadonnées définies dans ce fichier et les textes - définis dans le dossier source du corpus - puisse s'établir, il faut que les trois premiers textes soient représentés respectivement par des fichiers nommés « 01_DeGaulle.cnr », « 02_DeGaulle.cnr » et « 03_DeGaulle.cnr » (ce corpus est importé par le module « CNR+CSV »).
5.5.4 Noms des fichiers source
Les noms de fichiers source sont utilisés pour construire l’identifiant unique de chaque texte d’un corpus. La gestion des noms de fichiers est variable selon les systèmes d’exploitation. Il est recommandé :
-
de ne pas utiliser de point (.), comme dans 'p.', dans les noms de fichiers ;
-
de ne pas utiliser l'espace ( ), comme dans 'p. 9', dans les noms de fichiers ;
-
de ne pas utiliser de caractères à diacritiques (accent, cédille), comme dans 'français', dans les noms de fichiers.
18 La macro « ChangeEncoding » permet si nécessaire de modifier par lots l'encodage des caractères de tous les fichiers sources d'un corpus situés dans un dossier. Elle est à utiliser depuis TXM sur un dossier de sources donné, avant de procéder à l'importation du corpus. Elle est documentée dans la page de documentation des macros de TXM : https://groupes.renater.fr/wiki/txm-users/public/macros#changeencoding. Une fois les sources encodées en Unicode UTF-8, il n'est plus nécessaire de régler le paramètre d'import « Encodage des caractères ».
19 L'algorithme de recherche de l'encodage est d'abord lancé sur l'ensemble des textes pour trouver une valeur générale. Puis texte par texte. Si un texte est trop petit ce sera la valeur générale qui sera utilisée.
20 Le code de la langue suit le standard ISO 639-1 : http://fr.wikipedia.org/wiki/Liste_des_codes_ISO_639-1.
21 Voir 14
22 Voir la page de documentation des feuilles XSL préparées pour TXM : https://groupes.renater.fr/wiki/txm-users/public/xsl.
23 Les fichiers CSV peuvent être édités et exportés avec les tableurs Calc ou Excel.
24 Voir The Unicode Consortium : http://www.unicode.org.