Tutoriel de construction d’un corpus TXM de textes en grec ancien lemmatisés à partir de textes du corpus Diorisis Ancient Greek

Serge Heiden

Avril 2025

[CC BY-NC-SA]

Ce tutoriel va vous montrer comment construire un corpus TXM de quelques textes d’Aristophanes en grec ancien lemmatisés à partir de l’archive .zip du corpus de 820 textes Diorisis Ancient Greek.

Deux variantes de préparation des fichiers montrent ensuite comment créer le corpus TXM de l’ensemble des textes du corpus Diorisis ainsi qu’un corpus compilant les textes de trois auteurs (Platon, Aristote et Épicure).

Résumé des opérations

Les opérations vont être les suivantes :

  1. Télécharger l’archive des 820 textes du corpus Diorisis Ancient Greek
  2. Générer la liste des 11 textes d’Aristophanes de l’archive
  3. Extraire les 11 textes d’Aristophanes de l’archive
  4. Convertir l’encodage Betacode des mots de ces 11 textes en caractères Unicode
  5. Télécharger la feuille de transformation XSLT de prétraitement des fichiers .xml au format Diorisis pour TXM ainsi que la table des métadonnées de textes
  6. Organiser le répertoire source des textes
  7. Importer le corpus avec le module XML-TEI Zero + CSV

Sommaire

  1. Télécharger l’archive du corpus Diorisis
  2. Générer la liste des textes d’Aristophanes
  3. Extraire les 11 textes d’Aristophanes de l’archive
  4. Convertir l’encodage Betacode des mots en caractères Unicode
  5. Télécharger la feuille de transformation diorisis2tei.xsl
  6. Télécharger les métadonnées des textes du corpus
  7. Organiser les fichiers source pour l’import avec le module XML-TEI Zero + CSV de TXM
  8. Importer le corpus dans TXM
  9. Variante pour construire le corpus TXM de tous les textes du corpus Diorisis
  10. Variante pour construire le corpus TXM de tous les textes des trois auteurs Platon, Aristote et Épicure du corpus Diorisis
  11. Annexe
    1. Feuille de transformation diorisis2tei.xsl
      1. Transformation de l’encodage des mots
      2. Transformation de l’encodage des ponctuations
      3. Transformation de l’encodage des phrases

Télécharger l’archive du corpus Diorisis

Le corpus « Diorisis Ancient Greek » est composé de 820 textes en grec ancien lemmatisés. Il a été publié en 2018 par A. Vatri et B. McGillivray :

L’archive .zip du corpus est téléchargeable depuis figshare.com :

🠲 le navigateur dépose le fichier Diorisis.zip sur votre disque dur.

Pour information, cette archive fait 194 Mo.

Générer la liste des textes d’Aristophanes

Par construction, les noms de fichiers correspondants aux textes d’Aristophanes dans l’archive Diorisis.zip commencent par ‘Aristophanes’.

Pour établir la liste de tous les noms de fichiers commençant par ‘Aristophanes’ de l’archive Diorisis.zip nous allons utiliser l’utilitaire TXM ‘ZipList’.

  • dans TXM, lancer ‘Utilitaires > utils > Zip List’
    • dans la boite de dialogue des paramètres :
      • dans le champ input_file pointer vers le fichier Diorisis.zip
      • dans le champ filter_regex mettre la chaine ^Aristophanes
        Cette chaine est une expression régulière qui va filtrer tous les noms de fichiers commençant par ‘Aristophanes’. Le caractère opérateur spécial ^ signifie que la chaine doit se trouver au début du nom du fichier.
      • dans le champ output_separator mettre le caractère ;
        Ce séparateur de noms de fichiers sera utilisé par l’utilitaire UnZip pour extraire les fichiers souhaités.
      • puis cliquer sur le bouton pour lancer l’utilitaire

🠲 l’utilitaire produit dans la console la chaine :
Aristophanes (0019) - Acharnians (001).xml;Aristophanes (0019) - Birds (006).xml;Aristophanes (0019) - Clouds (003).xml;Aristophanes (0019) - Ecclesiazusae (010).xml;Aristophanes (0019) - Frogs (009).xml;Aristophanes (0019) - Knights (002).xml;Aristophanes (0019) - Lysistrata (007).xml;Aristophanes (0019) - Peace (005).xml;Aristophanes (0019) - Plutus (011).xml;Aristophanes (0019) - Thesmophoriazusae (008).xml;Aristophanes (0019) - Wasps (004).xml

Extraire les 11 textes d’Aristophanes de l’archive

Nous allons extraire de l’archive Diorisis.zip seulement les 11 fichiers dont nous avons besoin pour construire le corpus à l’aide de l’utilitaire TXM ‘UnZip’.

  • dans TXM, lancer ‘Utilitaires > utils > Un Zip’
    • dans la boite de dialogue des paramètres :
      • dans le champ input_file pointer vers le fichier Diorisis.zip
      • dans le champ output_folder pointer vers le dossier qui recevra les fichiers extraits
      • dans le champ files_list coller la chaine Aristophanes (0019) - Acharnians (001).xml;Aristophanes (0019) - Birds (006).xml;Aristophanes (0019) - Clouds (003).xml;Aristophanes (0019) - Ecclesiazusae (010).xml;Aristophanes (0019) - Frogs (009).xml;Aristophanes (0019) - Knights (002).xml;Aristophanes (0019) - Lysistrata (007).xml;Aristophanes (0019) - Peace (005).xml;Aristophanes (0019) - Plutus (011).xml;Aristophanes (0019) - Thesmophoriazusae (008).xml;Aristophanes (0019) - Wasps (004).xml
        (liste des 11 noms de fichiers à récupérer dans l’archive, séparés par un point-virgule)
      • puis cliquer sur le bouton pour lancer l’utilitaire

🠲 l’utilitaire extrait les 11 fichiers Aristophanes (0019) -*.xml.

Convertir l’encodage Betacode des mots en caractères Unicode

Les textes du corpus Diorisis ne sont lisibles que dans le système de caractères Betacode, ce qui est moins lisible qu’avec les caractères du système Unicode pour celui qui ne connait pas le système de caractères Betacode.

Nous allons donc convertir l’encodage Betacode initial des mots des fichiers en caractères Unicode pour faciliter la lecture des textes dans TXM. Lors de la conversion la version Betacode d’origine des formes de mots est conservée dans la propriété b-form. Elle restera donc exploitable dans TXM.

  • dans TXM, lancer ‘Utilitaires > xml > Betacode 2 Unicode Dir’
    • dans la boite de dialogue des paramètres :
      • dans le champ inputDirectory pointer vers le dossier contenant les fichiers .xml des textes d’Aristophanes.
      • dans le champ outputDirectory pointer vers le dossier qui recevra les fichiers convertis.
      • laisser les autres paramètres avec leur valeur par défaut
        • puis cliquer sur le bouton pour lancer l’utilitaire

🠲 l’utilitaire crée 11 nouveaux fichiers, résultats de la conversion. Ce sont les fichiers à importer dans TXM.

Télécharger la feuille de transformation diorisis2tei.xsl

L’encodage des ponctuations, des mots et des phrases des fichiers .xml du corpus Diorisis doit être normalisé en TEI pour pouvoir être importé dans TXM. La feuille de transformation diorisis2tei.xsl réalise les transformations nécessaires et peut-être utilisée à la volée lors de l’import du corpus dans TXM.

Il n’est pas nécessaire de comprendre comment cette feuille de transformation .xsl fonctionne, il suffit de la déposer au bon endroit dans un des sous-dossiers du dossier des sources pour que la tranformation ait lieu.

Pour en savoir plus sur les transformations réalisées par la feuille diorisis2tei.xsl vous pouvez consulter l’annexe Feuille de transformation diorisis2tei.xsl.

La feuille diorisis2tei.xsl est téléchargeable depuis l’entrepôt de ressources de TXM :

🠲 le navigateur dépose le fichier diorisis2tei.xsl sur votre disque dur.

Télécharger les métadonnées des textes du corpus

Les textes du corpus Diorisis sont accompagnés de métadonnées que l’on peut exploiter dans TXM, par exemple pour faire différents sous-corpus d’auteurs ou de genres. Nous y avons ajouté un identifiant réduit ‘ids’ pour alimenter des références de concordances synthétiques et un ordre chronologique dans la métadonnée ‘text-order’ pour que les textes soient ordonnés du plus ancien au plus récent dans le corpus :

  • id : nom du fichier
  • ids : identifiant réduit de l’ouvrage
  • author : auteur
  • title : titre
  • tlgAuthor : numéro de l’auteur dans le Thesaurus Linguae Graecae (TLG)
  • tlgId : numéro de l’ouvrage dans le Thesaurus Linguae Graecae (TLG)
  • lang : langue de l’ouvrage
  • date : date de l’ouvrage
  • text-order : numéro d’ordre chronologique de l’ouvrage dans le corpus Diorisis
  • genre : genre de l’ouvrage
  • subgenre : sous-genre de l’ouvrage

Voici les métadonnées des textes d’Aristophanes :

id ids author title tlgAuthor tlgId lang date text-order genre subgenre
Aristophanes (0019) - Acharnians (001) Aristophanes, Acharnians Aristophanes Acharnians 0019 001 grc -425 061 Comedy Comedy
Aristophanes (0019) - Knights (002) Aristophanes, Knights Aristophanes Knights 0019 002 grc -424 062 Comedy Comedy
Aristophanes (0019) - Clouds (003) Aristophanes, Clouds Aristophanes Clouds 0019 003 grc -423 063 Comedy Comedy
Aristophanes (0019) - Wasps (004) Aristophanes, Wasps Aristophanes Wasps 0019 004 grc -422 066 Comedy Comedy
Aristophanes (0019) - Peace (005) Aristophanes, Peace Aristophanes Peace 0019 005 grc -421 067 Comedy Comedy
Aristophanes (0019) - Birds (006) Aristophanes, Birds Aristophanes Birds 0019 006 grc -414 093 Comedy Comedy
Aristophanes (0019) - Lysistrata (007) Aristophanes, Lysistrata Aristophanes Lysistrata 0019 007 grc -411 097 Comedy Comedy
Aristophanes (0019) - Thesmophoriazusae (008) Aristophanes, Thesmophoriazusae Aristophanes Thesmophoriazusae 0019 008 grc -411 098 Comedy Comedy
Aristophanes (0019) - Frogs (009) Aristophanes, Frogs Aristophanes Frogs 0019 009 grc -405 106 Comedy Comedy
Aristophanes (0019) - Ecclesiazusae (010) Aristophanes, Ecclesiazusae Aristophanes Ecclesiazusae 0019 010 grc -392 150 Comedy Comedy
Aristophanes (0019) - Plutus (011) Aristophanes, Plutus Aristophanes Plutus 0019 011 grc -388 160 Comedy Comedy

Ces métadonnées sont encodées dans un fichier metadata.ods utilisable pour l’import du corpus dans TXM.

Remarque : le fichier metadata.ods fourni contient l’ensemble des 820 lignes correspondant à tous les textes du corpus Diorisis, et pas seulement celles listées ci-dessus, mais TXM n’utilisera que les 11 lignes dont il a besoin pour importer les textes d’Aristophanes.

Le fichier metadata.ods est téléchargeable depuis l’entrepôt de ressources de TXM :

🠲 le navigateur dépose le fichier metadata.ods sur votre disque dur.

Organiser les fichiers source pour l’import avec le module XML-TEI Zero + CSV de TXM

  • créer un dossier des sources du corpus, dont le nom sera utilisé pour créer le corpus dans TXM, par exemple Diorisis-Aristophanes
  • copier dans le dossier source les 11 fichiers .xml résultant de la conversion Betacode
  • copier dans le dossier source le fichier de métadonnées metadata.ods
  • créer dans le dossier source un dossier xsl pour les phases de prétraitement du module XML-TEI Zero + CSV
  • créer un sous-dossier 2-front dans le dossier xsl
  • copier le fichier diorisis2tei.xsl dans le sous-dossier 2-front

Le répertoire source est prêt pour l’import.

Importer le corpus dans TXM

Nous allons créer le corpus DIORISIS-ARISTOPHANES à partir du répertoire Diorisis-Aristophanes.

  • dans TXM, lancer la commande ‘Fichier > Importer > Corpus > XML-TEI Zero + CSV’
    • dans le formulaire initial :
      • cliquer sur le lien ‘Sélectionner le dossier des fichiers sources et nommer le corpus’
        • pointer vers le dossier Diorisis-Aristophanes
        • nommer le corpus DIORISIS-ARISTOPHANES
        • cliquer sur le bouton
    • dans le formulaire de paramètres d’import :
      • dans la section ‘Langue principale’
        • saisir la valeur el (pour le code de la langue grecque) dans le champ ‘Sélectionner’ du paramètre ‘Langue du texte’ (ce code de langue sera utilisé pour déterminer l’ordre lexicographique des listes de mots, des contextes de concordances, etc.)
      • dans la section ‘Commandes’, personnaliser les références des concordances
        • saisir %s, %s/%s dans le champ ‘Patron’ du paramètre ‘Références par défaut’
        • saisir text_ids,s_id,s_location dans le champ ‘Properties’
  • cliquer sur le bouton

🠲 le module d’import crée le nouveau corpus DIORISIS-ARISTOPHANES.

Variante pour construire le corpus TXM de tous les textes du corpus Diorisis

Suivre le même tutoriel, mais pour extraire tous les textes du corpus Diorisis il suffit de laisser le champ files_list vide lors de l’appel de l’utilitaire TXM ‘Un Zip’.

Dans ce cas il n’est pas nécessaire d’utiliser l’utilitaire TXM ‘Zip List’ car on n’a pas besoin d’une liste de noms de fichiers.

Le corpus TXM sera composé des 820 textes du corpus Diorisis.

Variante pour construire le corpus TXM de tous les textes des trois auteurs Platon, Aristote et Épicure du corpus Diorisis

Suivre le même tutoriel, mais :

  1. Dans l’appel de l’utilitaire TXM ‘Zip List’ pour produire la liste des textes, remplacer la valeur ^Aristophanes par ^(Plato|Aristotle|Epicurus) dans le champ filter_regex.
    Ceci produira une liste de 59 noms de fichiers.

    Remarque : vous pouvez construire d’autres expressions de sélection de façon analogue :

    1. en repérant les noms d’auteurs souhaités dans la colonne author du tableau metadata.ods
    2. puis en les concatenant dans une expression de la forme ^(auteur1|auteur2|auteur3|auteur4|etc.)
  2. Utiliser ensuite cette liste dans le champ files_list lors de l’appel de l’utilitaire TXM ‘Un Zip’

Le corpus TXM sera composé des 59 textes de Platon, Aristote et Épicure du corpus Diorisis.

Annexe

Feuille de transformation diorisis2tei.xsl

Transformation de l’encodage des mots

Les éléments Diorisis <word> sont transformés en éléments TEI <w> (définition).

  • format Diorisis :
<word form="kardi/an" id="6">
  <lemma id="53290" entry="καρδία" POS="noun" disambiguated="1.0" TreeTagger="true">
    <analysis morph="fem acc sg (attic doric ionic aeolic)"/>
  </lemma>
</word>
  • format de sortie
<w lemma="καρδία" lemma-id="53290" pos="noun" TreeTagger="true" disambiguated="1.0" analysis="fem acc sg (attic doric ionic aeolic)" b-form="kardi/an">καρδίαν</w>

Transformation de l’encodage des ponctuations

Les éléments Diorisis <punct> sont transformés en éléments TEI <w>.

  • format Diorisis :
<punct mark=","></punct>
  • format de sortie
<w lemma="," pos="punct">,</w>

Transformation de l’encodage des phrases

Les éléments Diorisis <sentence> sont transformés en éléments TEI <s> (définition).

  • format Diorisis :
<sentence id="4" location="5">
  • format de sortie
<s id="4" location="5">

Cette étape en profite pour enrober chaque phrase dans un paragraphe <p> (définition) pour éclaircir la lecture des textes.