Tutoriel de construction d’un corpus TXM de textes en grec ancien lemmatisés à partir de textes du corpus Diorisis Ancient Greek
Avril 2025
Ce tutoriel va vous montrer comment construire un corpus TXM de quelques textes d’Aristophanes en grec ancien lemmatisés à partir de l’archive .zip du corpus de 820 textes Diorisis Ancient Greek.
Deux variantes de préparation des fichiers montrent ensuite comment créer le corpus TXM de l’ensemble des textes du corpus Diorisis ainsi qu’un corpus compilant les textes de trois auteurs (Platon, Aristote et Épicure).
Résumé des opérations
Les opérations vont être les suivantes :
- Télécharger l’archive des 820 textes du corpus Diorisis Ancient Greek
- Générer la liste des 11 textes d’Aristophanes de l’archive
- Extraire les 11 textes d’Aristophanes de l’archive
- Convertir l’encodage Betacode des mots de ces 11 textes en caractères Unicode
- Télécharger la feuille de transformation XSLT de prétraitement des fichiers .xml au format Diorisis pour TXM ainsi que la table des métadonnées de textes
- Organiser le répertoire source des textes
- Importer le corpus avec le module XML-TEI Zero + CSV
Sommaire
- Télécharger l’archive du corpus Diorisis
- Générer la liste des textes d’Aristophanes
- Extraire les 11 textes d’Aristophanes de l’archive
- Convertir l’encodage Betacode des mots en caractères Unicode
- Télécharger la feuille de transformation diorisis2tei.xsl
- Télécharger les métadonnées des textes du corpus
- Organiser les fichiers source pour l’import avec le module XML-TEI Zero + CSV de TXM
- Importer le corpus dans TXM
- Variante pour construire le corpus TXM de tous les textes du corpus Diorisis
- Variante pour construire le corpus TXM de tous les textes des trois auteurs Platon, Aristote et Épicure du corpus Diorisis
- Annexe
Télécharger l’archive du corpus Diorisis
Le corpus « Diorisis Ancient Greek » est composé de 820 textes en grec ancien lemmatisés. Il a été publié en 2018 par A. Vatri et B. McGillivray :
- Mcgillivray, B., & Vatri, A. (2018). The Diorisis Ancient Greek Corpus. Research Data Journal for the Humanities and Social Sciences, 3. https://doi.org/10.1163/24523666-01000013
L’archive .zip du corpus est téléchargeable depuis figshare.com :
- dans un navigateur, ouvrir l’adresse : https://figshare.com/ndownloader/files/11296247
🠲 le navigateur dépose le fichier Diorisis.zip sur votre disque dur.
Pour information, cette archive fait 194 Mo.
Générer la liste des textes d’Aristophanes
Par construction, les noms de fichiers correspondants aux textes d’Aristophanes dans l’archive Diorisis.zip commencent par ‘Aristophanes’.
Pour établir la liste de tous les noms de fichiers commençant par ‘Aristophanes’ de l’archive Diorisis.zip nous allons utiliser l’utilitaire TXM ‘ZipList’.
- dans TXM, lancer ‘Utilitaires > utils > Zip List’
- dans la boite de dialogue des paramètres :
- dans le champ input_file pointer vers le fichier
Diorisis.zip - dans le champ filter_regex mettre la chaine
^Aristophanes
Cette chaine est une expression régulière qui va filtrer tous les noms de fichiers commençant par ‘Aristophanes’. Le caractère opérateur spécial^signifie que la chaine doit se trouver au début du nom du fichier. - dans le champ output_separator mettre le caractère
;
Ce séparateur de noms de fichiers sera utilisé par l’utilitaire UnZip pour extraire les fichiers souhaités. - puis cliquer sur le bouton pour lancer l’utilitaire
- dans le champ input_file pointer vers le fichier
- dans la boite de dialogue des paramètres :
🠲 l’utilitaire produit dans la console la chaine :
Aristophanes (0019) - Acharnians (001).xml;Aristophanes (0019) - Birds (006).xml;Aristophanes (0019) - Clouds (003).xml;Aristophanes (0019) - Ecclesiazusae (010).xml;Aristophanes (0019) - Frogs (009).xml;Aristophanes (0019) - Knights (002).xml;Aristophanes (0019) - Lysistrata (007).xml;Aristophanes (0019) - Peace (005).xml;Aristophanes (0019) - Plutus (011).xml;Aristophanes (0019) - Thesmophoriazusae (008).xml;Aristophanes (0019) - Wasps (004).xml
Extraire les 11 textes d’Aristophanes de l’archive
Nous allons extraire de l’archive Diorisis.zip seulement les 11 fichiers dont nous avons besoin pour construire le corpus à l’aide de l’utilitaire TXM ‘UnZip’.
- dans TXM, lancer ‘Utilitaires > utils > Un Zip’
- dans la boite de dialogue des paramètres :
- dans le champ input_file pointer vers le fichier
Diorisis.zip - dans le champ output_folder pointer vers le dossier qui recevra les fichiers extraits
- dans le champ files_list coller la chaine
Aristophanes (0019) - Acharnians (001).xml;Aristophanes (0019) - Birds (006).xml;Aristophanes (0019) - Clouds (003).xml;Aristophanes (0019) - Ecclesiazusae (010).xml;Aristophanes (0019) - Frogs (009).xml;Aristophanes (0019) - Knights (002).xml;Aristophanes (0019) - Lysistrata (007).xml;Aristophanes (0019) - Peace (005).xml;Aristophanes (0019) - Plutus (011).xml;Aristophanes (0019) - Thesmophoriazusae (008).xml;Aristophanes (0019) - Wasps (004).xml
(liste des 11 noms de fichiers à récupérer dans l’archive, séparés par un point-virgule) - puis cliquer sur le bouton pour lancer l’utilitaire
- dans le champ input_file pointer vers le fichier
- dans la boite de dialogue des paramètres :
🠲 l’utilitaire extrait les 11 fichiers Aristophanes (0019) -*.xml.
Convertir l’encodage Betacode des mots en caractères Unicode
Les textes du corpus Diorisis ne sont lisibles que dans le système de caractères Betacode, ce qui est moins lisible qu’avec les caractères du système Unicode pour celui qui ne connait pas le système de caractères Betacode.
Nous allons donc convertir l’encodage Betacode initial des mots des fichiers en caractères Unicode pour faciliter la lecture des textes dans TXM. Lors de la conversion la version Betacode d’origine des formes de mots est conservée dans la propriété b-form. Elle restera donc exploitable dans TXM.
- dans TXM, lancer ‘Utilitaires > xml > Betacode 2 Unicode Dir’
- dans la boite de dialogue des paramètres :
- dans le champ inputDirectory pointer vers le dossier contenant les fichiers .xml des textes d’Aristophanes.
- dans le champ outputDirectory pointer vers le dossier qui recevra les fichiers convertis.
- laisser les autres paramètres avec leur valeur par défaut
- puis cliquer sur le bouton pour lancer l’utilitaire
- dans la boite de dialogue des paramètres :
🠲 l’utilitaire crée 11 nouveaux fichiers, résultats de la conversion. Ce sont les fichiers à importer dans TXM.
Télécharger la feuille de transformation diorisis2tei.xsl
L’encodage des ponctuations, des mots et des phrases des fichiers .xml du corpus Diorisis doit être normalisé en TEI pour pouvoir être importé dans TXM. La feuille de transformation diorisis2tei.xsl réalise les transformations nécessaires et peut-être utilisée à la volée lors de l’import du corpus dans TXM.
Il n’est pas nécessaire de comprendre comment cette feuille de transformation .xsl fonctionne, il suffit de la déposer au bon endroit dans un des sous-dossiers du dossier des sources pour que la tranformation ait lieu.
Pour en savoir plus sur les transformations réalisées par la feuille diorisis2tei.xsl vous pouvez consulter l’annexe Feuille de transformation diorisis2tei.xsl.
La feuille diorisis2tei.xsl est téléchargeable depuis l’entrepôt de ressources de TXM :
- dans un navigateur, ouvrir l’adresse : https://gitlab.huma-num.fr/txm/txm-ressources/-/raw/master/corpora/DIORISIS-PLUTARQUE/diorisis2tei.xsl
🠲 le navigateur dépose le fichier diorisis2tei.xsl sur votre disque dur.
Télécharger les métadonnées des textes du corpus
Les textes du corpus Diorisis sont accompagnés de métadonnées que l’on peut exploiter dans TXM, par exemple pour faire différents sous-corpus d’auteurs ou de genres. Nous y avons ajouté un identifiant réduit ‘ids’ pour alimenter des références de concordances synthétiques et un ordre chronologique dans la métadonnée ‘text-order’ pour que les textes soient ordonnés du plus ancien au plus récent dans le corpus :
- id : nom du fichier
- ids : identifiant réduit de l’ouvrage
- author : auteur
- title : titre
- tlgAuthor : numéro de l’auteur dans le Thesaurus Linguae Graecae (TLG)
- tlgId : numéro de l’ouvrage dans le Thesaurus Linguae Graecae (TLG)
- lang : langue de l’ouvrage
- date : date de l’ouvrage
- text-order : numéro d’ordre chronologique de l’ouvrage dans le corpus Diorisis
- genre : genre de l’ouvrage
- subgenre : sous-genre de l’ouvrage
Voici les métadonnées des textes d’Aristophanes :
| id | ids | author | title | tlgAuthor | tlgId | lang | date | text-order | genre | subgenre |
|---|---|---|---|---|---|---|---|---|---|---|
| Aristophanes (0019) - Acharnians (001) | Aristophanes, Acharnians | Aristophanes | Acharnians | 0019 | 001 | grc | -425 | 061 | Comedy | Comedy |
| Aristophanes (0019) - Knights (002) | Aristophanes, Knights | Aristophanes | Knights | 0019 | 002 | grc | -424 | 062 | Comedy | Comedy |
| Aristophanes (0019) - Clouds (003) | Aristophanes, Clouds | Aristophanes | Clouds | 0019 | 003 | grc | -423 | 063 | Comedy | Comedy |
| Aristophanes (0019) - Wasps (004) | Aristophanes, Wasps | Aristophanes | Wasps | 0019 | 004 | grc | -422 | 066 | Comedy | Comedy |
| Aristophanes (0019) - Peace (005) | Aristophanes, Peace | Aristophanes | Peace | 0019 | 005 | grc | -421 | 067 | Comedy | Comedy |
| Aristophanes (0019) - Birds (006) | Aristophanes, Birds | Aristophanes | Birds | 0019 | 006 | grc | -414 | 093 | Comedy | Comedy |
| Aristophanes (0019) - Lysistrata (007) | Aristophanes, Lysistrata | Aristophanes | Lysistrata | 0019 | 007 | grc | -411 | 097 | Comedy | Comedy |
| Aristophanes (0019) - Thesmophoriazusae (008) | Aristophanes, Thesmophoriazusae | Aristophanes | Thesmophoriazusae | 0019 | 008 | grc | -411 | 098 | Comedy | Comedy |
| Aristophanes (0019) - Frogs (009) | Aristophanes, Frogs | Aristophanes | Frogs | 0019 | 009 | grc | -405 | 106 | Comedy | Comedy |
| Aristophanes (0019) - Ecclesiazusae (010) | Aristophanes, Ecclesiazusae | Aristophanes | Ecclesiazusae | 0019 | 010 | grc | -392 | 150 | Comedy | Comedy |
| Aristophanes (0019) - Plutus (011) | Aristophanes, Plutus | Aristophanes | Plutus | 0019 | 011 | grc | -388 | 160 | Comedy | Comedy |
Ces métadonnées sont encodées dans un fichier metadata.ods utilisable pour l’import du corpus dans TXM.
Remarque : le fichier metadata.ods fourni contient l’ensemble des 820 lignes correspondant à tous les textes du corpus Diorisis, et pas seulement celles listées ci-dessus, mais TXM n’utilisera que les 11 lignes dont il a besoin pour importer les textes d’Aristophanes.
Le fichier metadata.ods est téléchargeable depuis l’entrepôt de ressources de TXM :
- dans un navigateur, ouvrir l’adresse : https://gitlab.huma-num.fr/txm/txm-ressources/-/raw/master/corpora/DIORISIS-ARISTOPHANES/metadata.ods
🠲 le navigateur dépose le fichier metadata.ods sur votre disque dur.
Organiser les fichiers source pour l’import avec le module XML-TEI Zero + CSV de TXM
- créer un dossier des sources du corpus, dont le nom sera utilisé pour créer le corpus dans TXM, par exemple
Diorisis-Aristophanes - copier dans le dossier source les 11 fichiers .xml résultant de la conversion Betacode
- copier dans le dossier source le fichier de métadonnées
metadata.ods - créer dans le dossier source un dossier
xslpour les phases de prétraitement du module XML-TEI Zero + CSV - créer un sous-dossier
2-frontdans le dossierxsl - copier le fichier
diorisis2tei.xsldans le sous-dossier2-front
Le répertoire source est prêt pour l’import.
Importer le corpus dans TXM
Nous allons créer le corpus DIORISIS-ARISTOPHANES à partir du répertoire Diorisis-Aristophanes.
- dans TXM, lancer la commande ‘Fichier > Importer > Corpus > XML-TEI Zero + CSV’
- dans le formulaire initial :
- cliquer sur le lien ‘Sélectionner le dossier des fichiers sources et nommer le corpus’
- pointer vers le dossier
Diorisis-Aristophanes - nommer le corpus
DIORISIS-ARISTOPHANES - cliquer sur le bouton
- pointer vers le dossier
- cliquer sur le lien ‘Sélectionner le dossier des fichiers sources et nommer le corpus’
- dans le formulaire de paramètres d’import :
- dans la section ‘Langue principale’
- saisir la valeur
el(pour le code de la langue grecque) dans le champ ‘Sélectionner’ du paramètre ‘Langue du texte’ (ce code de langue sera utilisé pour déterminer l’ordre lexicographique des listes de mots, des contextes de concordances, etc.)
- saisir la valeur
- dans la section ‘Commandes’, personnaliser les références des concordances
- saisir
%s, %s/%sdans le champ ‘Patron’ du paramètre ‘Références par défaut’ - saisir
text_ids,s_id,s_locationdans le champ ‘Properties’
- saisir
- dans la section ‘Langue principale’
- dans le formulaire initial :
La référence que l’on veut construire consiste en le nom de l’auteur et de l’oeuvre (text_ids) suivi du numéro de la phrase (s_n) et de sa localisation (s_location) séparée par un ‘/’, si elle a été encodée dans le texte.
- cliquer sur le bouton
🠲 le module d’import crée le nouveau corpus DIORISIS-ARISTOPHANES.
Variante pour construire le corpus TXM de tous les textes du corpus Diorisis
Suivre le même tutoriel, mais pour extraire tous les textes du corpus Diorisis il suffit de laisser le champ files_list vide lors de l’appel de l’utilitaire TXM ‘Un Zip’.
Dans ce cas il n’est pas nécessaire d’utiliser l’utilitaire TXM ‘Zip List’ car on n’a pas besoin d’une liste de noms de fichiers.
Le corpus TXM sera composé des 820 textes du corpus Diorisis.
Variante pour construire le corpus TXM de tous les textes des trois auteurs Platon, Aristote et Épicure du corpus Diorisis
Suivre le même tutoriel, mais :
-
Dans l’appel de l’utilitaire TXM ‘Zip List’ pour produire la liste des textes, remplacer la valeur
^Aristophanespar^(Plato|Aristotle|Epicurus)dans le champ filter_regex.
Ceci produira une liste de 59 noms de fichiers.
Remarque : vous pouvez construire d’autres expressions de sélection de façon analogue :- en repérant les noms d’auteurs souhaités dans la colonne
authordu tableau metadata.ods - puis en les concatenant dans une expression de la forme
^(auteur1|auteur2|auteur3|auteur4|etc.)
- en repérant les noms d’auteurs souhaités dans la colonne
-
Utiliser ensuite cette liste dans le champ files_list lors de l’appel de l’utilitaire TXM ‘Un Zip’
Le corpus TXM sera composé des 59 textes de Platon, Aristote et Épicure du corpus Diorisis.
Annexe
Feuille de transformation diorisis2tei.xsl
Transformation de l’encodage des mots
Les éléments Diorisis <word> sont transformés en éléments TEI <w> (définition).
<w> faite par TXM. C’est à dire qu’au moment de l’import du corpus, TXM interprète n’importe quels attributs d’éléments <w> comme des propriétés de mots à exploiter, quels que soient leur nom ou leur sémantique. Les propriétés de mots Diorisis sont donc déplacées dans des attributs d’éléments <w> avec leur nom d’origine (lemma, pos, TreeTagger, disambiguated, analysis) ou adapté (lemma-id, b-form). Il s’agit donc d’une stratégie de surcharge des éléments <w> par rapport au standard TEI pour optimiser l’import et l’exploitation dans TXM. Cette stratégie permet également de profiter de la documentation d’origine du corpus Diorisis en préservant sa terminologie.- format Diorisis :
<word form="kardi/an" id="6">
<lemma id="53290" entry="καρδία" POS="noun" disambiguated="1.0" TreeTagger="true">
<analysis morph="fem acc sg (attic doric ionic aeolic)"/>
</lemma>
</word>
- format de sortie
<w lemma="καρδία" lemma-id="53290" pos="noun" TreeTagger="true" disambiguated="1.0" analysis="fem acc sg (attic doric ionic aeolic)" b-form="kardi/an">καρδίαν</w>
Transformation de l’encodage des ponctuations
Les éléments Diorisis <punct> sont transformés en éléments TEI <w>.
- format Diorisis :
<punct mark=","></punct>
- format de sortie
<w lemma="," pos="punct">,</w>
Transformation de l’encodage des phrases
Les éléments Diorisis <sentence> sont transformés en éléments TEI <s> (définition).
- format Diorisis :
<sentence id="4" location="5">
- format de sortie
<s id="4" location="5">
Cette étape en profite pour enrober chaque phrase dans un paragraphe <p> (définition) pour éclaircir la lecture des textes.