Tutoriel d’importation de corpus TEI avec le module XML-TEI Zero + CSV
(corpus Joubert, encodage simple)

Alexei Lavrentiev ᵃ
Serge Heiden ᵃ ᵉ

Septembre 2024

[CC BY]

Ce tutoriel va vous aider à créer un corpus TXM à partir d’un document XML encodé en TEI exploitant :

  • les sauts de pages et les sauts de lignes (balises <pb/> resp. <lb/>)
    • l’attribut @facs de la balise <pb/> est notamment utilisé pour construire une édition synoptique affichant les images du fac-similé du document source hébergées dans Gallica
  • le contenu des notes (balises <note>).

Résumé des opérations

Les opérations vont être les suivantes :

  1. Télécharger le document XML-TEI source depuis l’entrepôt de ressources de TXM
  2. Importer directement dans TXM avec le module XML-TEI Zero + CSV
  3. Observer les caractéristiques du corpus produit
  4. Affiner les paramètres d’import pour :
    1. créer une édition synoptique affichant le fac-similé du document source Gallica
    2. ne pas indexer le contenu des notes (tout en les affichant dans l’édition)
    3. personnaliser les références des concordances

Télécharger le fichier .xml d’un extrait des « Erreurs populaires » depuis l’entrepôt de ressources de TXM

Erreurs populaires

Erreurs populaires est un ouvrage destiné à désavouer les clichés répandus dans la société de la fin du XVIe siècle au sujet de la médecine et de la santé.

Laurent Joubert

Son auteur, Laurent Joubert (1529-1583), fut professeur de médecine à l’université de Montpellier et premier médecin du roi Henri III de Navarre (futur Henri IV de France). Ses Erreurs populaires ont suscité une vive polémique en raison des sujets délicats qui y étaient abordés. Ce texte fait l’objet d’une édition numérique en cours d’établissement au laboratoire IHRIM.

Ce tutoriel utilise un extrait de trois pages du deuxième chapitre du premier livre de l’ouvrage. Sa taille limitée permet d’expérimenter l’import en quelques secondes sans encombrer l’espace disque.

Cet extrait est un document XML-TEI valide composé d’un entête TEI minimal et du corps du texte doté de balises de sauts de pages et de lignes, de divisions en chapitres et de plusieurs types de notes.

Télécharger l’extrait

  • dans un navigateur, aller à l’entrepôt des ressources TXM hébergeant ce document XML-TEI.

  • enregistrer le fichier joubert1579_1-02-simple.xml sur votre disque dur

Préparer le dossier source pour l’import avec le module XML-TEI Zero + CSV de TXM

  • créer un dossier des sources du corpus (dont le nom sera utilisé pour créer le corpus dans TXM), par exemple JOUBERT-TEST
  • copier le fichier source .xml dans le dossier source

Importer une première version du corpus dans TXM

Nous allons créer un corpus composé du seul texte joubert1579_1-02-simple.xml.

  • dans TXM, lancer la commande ‘Fichier > Importer > Corpus > XML-TEI Zero + CSV’

Import XML-TEI Zero + CSV Lancement du module d’import XML-TEI Zero + CSV.

  • dans le formulaire de paramètres :
    • cliquer sur le lien ‘Sélectionner le dossier des fichiers sources et nommer le corpus’
      • pointer vers le dossier source : JOUBERT-TEST
      • nommer le corpus (un nom basé sur celui du dossier source est proposé automatiquement, c’est celui que nous utiliserons dans la suite de ce tutoriel)
      • cliquer sur le bouton
    • cliquer sur le bouton
    • ne pas fermer le formulaire de paramètres car il sera ré-utilisé plus tard

🠲 le module d’import crée le nouveau corpus JOUBERT-TEST.

Observer comment l’édition du texte est construite

  • dans TXM
    • ouvrir l’édition du premier texte du corpus (il n’y en a qu’un) en double-cliquant sur l’icone du corpus JOUBERT-TEST dans la vue Corpus
      • TXM affiche la page de garde mentionnant le nom du fichier
      • aller à la première page de l’ouvrage en cliquant sur le bouton [>] (Page suivante) situé en bas de la fenêtre
    • observer l’interprétation par défaut de l’encodage XML-TEI pour construire l’édition :
      • la délimitation et la numérotation des pages correspond aux balises <pb/> du document XML-TEI
      • les sauts de lignes correspondent aux balises <lb/>
      • le titre du chapitre (encodé par la balise <head>) est centré et affiché en gras
      • les appels de notes correspondent aux balises <note> et leur contenu s’affiche en pied de page

Observer comment les mots ont été indexés

  • dans TXM
    • calculer les Propriétés du corpus à partir de son menu contextuel (clic droit sur l’icone dans la vue Corpus)
      • le nombre de mots est 717
      • noter que note figure bien dans la liste des structures
    • vérifier la présence de mots particuliers en lançant une Concordance sur le corpus
      • saisir le mot fichier dans le champ de requête et lancer la recherche
      • constater qu’aucune occurrence n’est trouvée ⇨ Alors que ce mot figure dans l’en-tête <teiHeader> il n’est pas trouvé. Cela montre que le texte libre se trouvant dans le <teiHeader> n’a pas été indexé.
      • saisir le mot Découpage dans le champ de recherche et lancer à nouveau la recherche
        • on trouve une occurrence située dans la troisième note de la page 3 ⇨ Le contenu des notes a donc bien été indexé - comme si c’était des notes d’auteur (alors que ce sont des notes de l’éditeur)

Observer comment les concordances sont affichées

  • dans TXM
    • constater que seul le nom du fichier s’affiche dans la colonne des références de la concordance (colonne de gauche)

Personnaliser le corpus en affinant les paramètres d’import dans le formulaire

  • accéder à la fenêtre du formulaire d’import ou bien rouvrir le formulaire d’import et sélectionner à nouveau le dossier des sources si nécessaire

Formulaire de paramètres du module d'import XML-TEI Zero + CSV Formulaire de paramètres du module d’import XML-TEI Zero + CSV

  • dans la section ‘Éditions’
    • cocher l’option “Construire l’édition ‘facs’ “
    • dans le champ ‘Édition par défaut’, saisir default,facs
  • dans la section ‘Plans textuels’, saisir note dans le champ ‘Hors texte à éditer’ (leur contenu ne sera plus indexé mais restera affiché dans les éditions)
  • dans la section ‘Commandes’, personnaliser les références des concordances
    • saisir %s, %s %s, %s %s dans le champ ‘Patron’ du paramètre ‘Références par défaut’
    • saisir text_id,div_type,div_n,div_type1,div_n1 dans le champ ‘Properties’
  • cliquer sur le bouton , puis sur pour confirmer le remplacement du corpus.

Vérifier l’édition synoptique

  • dans TXM, lancer la commande ‘Édition’ sur le corpus mis à jour
  • aller à la première page de l’édition. Elle devrait apparaître comme ceci :

Édition synoptique Édition synoptique de la première page de l’édition. L’image de fac-similé est téléchargée depuis le site de Gallica (il faut être connecté à Internet pour la visualiser).

Vérifier la non indexation des notes

  • lancer la commande Propriétés
    • le nombre de mots est passé à 659
    • la structure note n’apparaît plus dans la liste
  • lancer la commande Concordances et rechercher le mot Découpage
    • la requête ne retourne aucun résultat

Vérifier le contenu des références de concordance

  • saisir le mot est dans le champ de requête
    • la colonne des références affiche joubert1579_1-02-simple, livre 1, chapitre 2

Pour aller plus loin dans la personnalisation du corpus

Grâce à l’utilisation de feuilles de style CSS et XSLT il est possible de

  • mettre en évidence (par une couleur ou une police de caractères) des zones de textes balisées
  • indiquer les coupures de mots en fin de ligne
  • moduler l’affichage ou l’indexation des notes en fonction de leur type
  • indiquer les numéros de pages ou de lignes dans les références de concordances
  • ajuster la segmentation automatique des mots

Cela fera l’objet d’un autre tutoriel.


Notes

a : auteur.
e : éditeur.