5 Créer et manipuler de nouveaux corpus

5.5 Création d’un corpus par appel d’un module d’import

Pour créer un nouveau corpus dans TXM on lance un module d’import à l’aide du menu « Fichier > Importer ». Tous les modules d’import prennent en entrée un chemin vers le répertoire contenant les fichiers sources du corpus, sauf le module d’import « Presse-papier » qui utilise directement le contenu du presse-papier du système d’exploitation.

5.5.1 Import à partir du presse-papier

L’import presse-papier est la façon la plus simple et la plus rapide, mais aussi la plus limitée, pour créer un corpus dans TXM. Il suffit de :

  1. copier n’importe quel texte depuis un logiciel (par exemple un traitement de texte – MS Word ou LibreOffice Writer, ou un lecteur de fichier PDF – Adobe Acrobat, ou un navigateur web – FireFox ou Internet Explorer ouvert sur une page, ou encore un logiciel de messagerie – Thunderbird, etc.), ce qui se fait en général par :

    1. sélection du texte avec la souris ou avec le clavier (raccourcis clavier Control-A, Command-A en Mac)

    2. puis commande de menu ‘Éditer > Copier’ de l’application (raccourcis clavier Control-C, Command-C en Mac) ;

  2. puis ensuite de lancer la commande TXM « Fichier > Importer > Presse-papier ».

Le résultat est un nouveau corpus ayant un nom calculé automatiquement « PRESSEPAPIER* » composé d’un seul texte (factice) contenant les mots trouvés dans le presse-papier considéré comme du texte brut. Si TreeTagger est installé et configuré pour TXM les mots sont également lemmatisés selon la langue choisie dans la préférence « TXM / Utilisateur / Import / Clipboard / Default language ».

5.5.2 Modules d’import à partir de fichiers sources

Chaque format de source (TXT, XML, TEI, etc.) correspond à un module d’import du menu  « Fichier > Importer » :

 

Module

Format

TXT + CSV

fichiers de texte brut (.txt) + tableau de métadonnées (metadata.csv)

ODT/DOC/RTF + CSV

fichiers de traitement de texte (.doc, .odt, etc.)

XML/w + CSV

fichiers XML (.xml)

XTZ + CSV

fichiers XML avec des balises TEI optionnelles

XML-TEI BFM

fichiers XML-TEI de la Base de Français Médiévale (BFM)

XML-TEI Frantext

fichiers XML-TEI libres de droits de Frantext

XML-TEI TXM

fichiers XML-TEI normalisés pour TXM

XML Transcriber + CSV

fichiers XML de transcription selon le schéma XML du logiciel Transcriber

XML Factiva

fichiers exportés au format XML depuis le portail Factiva

XML-TMX

fichiers XML de corpus multilingues alignés (mémoires de traduction)

Factiva TXT

fichiers exportés au format TXT depuis le portail Factiva

CNR + CSV

fichiers résultat du logiciel Cordial

Alceste

fichiers au format étoilé (****) des logiciels IRaMuTeQ et Alceste

Hyperbase

fichiers au format Hyperbase (&&&)

CQP

fichiers au format tabulé de CWB-CQP

Le lancement d’un module d’import provoque l’ouverture de son formulaire de paramètres, similaire à celui de l’illustration 5.2) :

 

images7

Illustration 5.2: Formulaire des paramètres d'import du module TXT + CSV.

Pour remplir le formulaire il faut d’abord commencer par sélectionner le dossier qui contient les fichiers sources, en cliquant sur l'icône « dossier » ou en cliquant sur le lien hypertexte « Sélectionner le répertoire des sources ».

On peut ensuite renseigner les autres paramètres, il faut ouvrir les différentes sections de paramètres en cliquant sur leur intitulé pour y accéder :

L'affichage exact des sections suivantes dépend du module d'import utilisé :

Tous les paramètres d'importation sont sauvegardés dans un fichier nommé « import.xml » dans le dossier des sources.

Une fois les paramètres renseignés, on lance l’import en cliquant sur le bouton vert avec la flèche ou en cliquant sur le lien hypertexte « Lancer l’import du corpus ».

Le résultat est un nouveau corpus ajouté à la vue « Corpus » auquel on peut appliquer toutes les commandes TXM : Description, Lexique, Concordances, Édition, etc.

5.5.3 Fichier de métadonnées « metadata.csv »

 

Les modules nommés « XXX+CSV » sont des modules qui peuvent associer à chaque texte du corpus des métadonnées définies dans un fichier CSV23. Ce fichier doit être au format suivant :

5.5.3.1 Exemple de fichier « metadata.csv »

 

Voici les trois premières lignes du fichier « metadata.csv » du corpus exemple DISCOURS.

 

"id","loc","type","date"

01_DeGaulle,de Gaulle,Allocution radiotélévisée,27/06/1958

02_DeGaulle,de Gaulle,Allocution radiotélévisée,28/12/1958

03_DeGaulle,de Gaulle,Allocution radiotélévisée,30/01/1959

Pour que la relation entre les métadonnées définies dans ce fichier et les textes - définis dans le dossier source du corpus - puisse s'établir, il faut que les trois premiers textes soient représentés respectivement par des fichiers nommés « 01_DeGaulle.cnr », « 02_DeGaulle.cnr » et « 03_DeGaulle.cnr » (ce corpus est importé par le module « CNR+CSV »).

5.5.4 Noms des fichiers source

Les noms de fichiers source sont utilisés pour construire l’identifiant unique de chaque texte d’un corpus. La gestion des noms de fichiers est variable selon les systèmes d’exploitation. Il est recommandé :


18  La macro « ChangeEncoding » permet si nécessaire de modifier par lots l'encodage des caractères de tous les fichiers sources d'un corpus situés dans un dossier. Elle est à utiliser depuis TXM sur un dossier de sources donné, avant de procéder à l'importation du corpus. Elle est documentée dans la page de documentation des macros de TXM : https://groupes.renater.fr/wiki/txm-users/public/macros#changeencoding. Une fois les sources encodées en Unicode UTF-8, il n'est plus nécessaire de régler le paramètre d'import « Encodage des caractères ».

19  L'algorithme de recherche de l'encodage est d'abord lancé sur l'ensemble des textes pour trouver une valeur générale. Puis texte par texte. Si un texte est trop petit ce sera la valeur générale qui sera utilisée.

20  Le code de la langue suit le standard ISO 639-1 : http://fr.wikipedia.org/wiki/Liste_des_codes_ISO_639-1.

21  Voir 14

22  Voir la page de documentation des feuilles XSL préparées pour TXM : https://groupes.renater.fr/wiki/txm-users/public/xsl.

23  Les fichiers CSV peuvent être édités et exportés avec les tableurs Calc ou Excel.

24  Voir The Unicode Consortium : http://www.unicode.org.