Bibliothèque de transformations XSLT pour l’import dans TXM

Collection de feuilles de style XSLT (1.0 ou 2.0) pouvant être utilisées pour préparer divers types de documents XML en vue de leur importation dans TXM. Placez-les dans le sous-dossier xsl/<étape> approprié lorsque vous utilisez le module d’importation XML-TEI Zero + CSV (XTZ) ou sélectionnez les avec l’option “Front XSLT” de l’interface de paramètres du module d’import XML/w+CSV (XML/w).

Les filtres sont généralement nommés selon le modèle suivant :

txm-filter-[format d’entrée]-[module d’import](-[option])?

[pour télécharger un fichier ci-dessous, faites un clic droit sur son lien puis lancez “Enregistrer la cible du lien sous…”]

Sommaire

  1. Feuilles de style à utiliser avec le module d’import XTZ
    1. Étape 1-split-merge
    2. Étape 2-front
    3. Étape 3-posttok
    4. Étape 4-edition
  2. Feuilles de style de base pour filtrer les sources XML
  3. Feuilles de style de base pour l’adaptation de sources XML TEI P5
  4. Feuilles de style de personnalisation des éditions
  5. Feuilles de style supplémentaires pour des corpus particuliers
    1. Perseus
    2. Textgrid
    3. Corpus Akkadien
    4. Queste del Saint Graal
    5. RNC
    6. BROWN
    7. BVH
    8. Frantext
    9. XCES-IDS

Feuilles de style à utiliser avec le module d’import XTZ

Étape 1-split-merge

Placer ces xsl dans le répertoire xsl/1-split-merge de votre répertoire de sources (sous-répertoire 1-split-merge du répertoire xsl).

[en raison d’un bug, cette étape de traitement ne fonctionne pas correctement dans TXM 0.7.8 et 0.7.9. Dans ce cas, ces feuilles de style doivent être appliquées avant l’import à l’aide de la macro ExecXSL ou d’un autre processeur XSLT 2.0]

  • txm-rename-files-no-dots.xsl : cette feuille de style est conçue pour que le module d’import XTZ remplace les points par des soulignés dans les noms de fichiers source (un bug dans TXM 0.7.8 empêchait les fichiers contenant des points dans leur nom d’être importés, ce bug a été résolu depuis TXM 0.7.9).
  • txm-split-teicorpus : cette feuille de style peut être utilisée pour scinder un fichier contenant un teiCorpus en autant de fichiers textes séparés que d’éléments TEI enfants.

Étape 2-front

Placer ces xsl dans le répertoire xsl/2-front de votre répertoire de sources.

  • txm-front-teiHeader2textAtt.xsl : cette feuille de style copie des métadonnées se trouvant dans le teiHeader dans des attributs de l’élément text de chaque fichier source.
  • txm-front-teitxm2xmlw.xsl : cette feuille de style peut être utilisée pour importer des fichiers au format XML-TEI TXM avec les modules XTZ ou XML/w. Ceci peut servir notamment à importer :
    • un corpus déjà tokenisé et annoté en dehors de TXM ;
    • un corpus déjà importé dans TXM, par n’importe quel module d’import et dont la représentation pivot est éventuellement retravaillée, tout en préservant l’encodage de ses mots.
      Les fichiers au format pivot XML-TEI TXM d’un corpus se trouvent dans le répertoire txm/NOM-DU-CORPUS de l’archive de son export binaire (voir la commande ‘Exporter > Corpus en format binaire…’).

Étape 3-posttok

Placer ces xsl dans le répertoire xsl/3-posttok de votre répertoire de sources.

  • txm-posttok-addRef.xsl : cette feuille de style peut être utilisée pour personnaliser les références dans les concordances de TXM. Pour cela, elle ajoute aux éléments w un attribut @ref qui est utilisé par TXM pour afficher la référence par défaut dans les concordances.
  • txm-posttok-unbreakWords.xsl : cette feuille de style peut être personnalisée pour recoller des mots (dont les éléments sont séparés par un saut de ligne ou un saut de page, par exemple) après tokenisation
  • txm-posttok-structure2wordAtt.xsl : cette feuille de style projette dans des attributs de w le niveau d’imbrication de certains éléments ancêtres.
    Par exemple, selon qu’un w est imbriqué dans :
  • aucun élément q
  • 1 seul élément q (//q//)
  • 2 éléments q (//q//q//)
  • ou 3 éléments q (//q//q//q//)
    les w reçoivent un nouvel attribut q à la valeur (resp.) :
  • 0
  • 1
  • 2
  • ou 3
    Listez dans le paramètre elementsToProject les noms des éléments dont il faut calculer l’imbrication, séparés par le caractère |. Dans l’exemple ci-dessus le paramètre elementsToProject vaut q.

Étape 4-edition

Placer ces xsl dans le répertoire xsl/4-edition de votre répertoire de sources.

  • 1-default-html.xsl : Cette feuille de style permet de créer des éditions alternatives à l’édition par défaut du module XTZ. Elle fonctionne en tandem avec la feuille 2-default-pager.xsl. Elle transforme chaque élément TEI en un span HTML ayant un attribut @class.
  • 2-default-pager.xsl : Cette feuille de style fonctionne en tandem avec la feuille 1-default-html.xsl. Elle crée autant de fichiers HTML que de pages, pour chaque texte.

Feuilles de style de base pour filtrer les sources XML

  • filter-keep-only-select.xsl : cette feuille de style peut être personnalisée pour ignorer tout le texte et les balises à l’exception du contenu et des ancêtres d’un élément particulier (select par défaut). Positionnez la valeur du paramètre tagToKeep au nom de l’élément à sélectionner.
  • filter-out-p.xsl : cette feuille de style peut être personnalisée pour ignorer un élément XML particulier (p par défaut) et son contenu.
  • filter-out-sp.xsl : cette feuille de style peut être personnalisée pour ignorer un élément XML, et son contenu, ayant un attribut à une valeur particulière (élément sp ayant l’attribut @who à la valeur enqueteur par défaut).

Feuilles de style de base pour l’adaptation de sources XML TEI P5

  • txm-filter-teip5-teibfm.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML TEI BFM. Notez que ce module est expérimental et peut échouer si les documents ne suivent pas les principes d’encodage de la BFM.
  • txm-filter-teip5-xmlw-preserve.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML/w. Par défaut, elle ignore les éléments teiHeader et facsimile et leur contenu et préserve tous les autres éléments.
  • txm-filter-teip5-xmlw-simplify.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML/w. Par défaut, elle ignore les éléments teiHeader, facsimile et note ainsi que leur contenu, et ignore toutes les balises du corps du texte, à l’exception de b, body, div, front, lb, p, pb, s, TEI, text et w.

Feuilles de style de personnalisation des éditions

Feuilles de style supplémentaires pour des corpus particuliers

Perseus

Textgrid

Corpus Akkadien

Queste del Saint Graal

RNC

BROWN

BVH

  • txm-filter-teibvh-xmlw.xsl : feuille de style pour préparer l’import de textes du projet BVH au format TEI avec le module XML/w.
  • txm-filter-teibvh-xmlw-posttok.xsl : feuille de style corrigeant les erreurs de tokenisation et ajustant les propriétés de mots de la version tokenisée des textes du corpus BVH au format TEI, pour l’import avec le module XML/w.

Frantext

XCES-IDS

Pour toute question relative à la bibliothèque XSLT de TXM, merci d’envoyez un mail à textometrie AT groupes.renater.fr.

  1. Voir aussi un exemple d’édition du corpus OBLCUNEIF en ligne.  2