Bibliothèque de transformations XSLT pour l’import dans TXM
Collection de feuilles de style XSLT (1.0 ou 2.0) pouvant être utilisées pour préparer divers types de documents XML en vue de leur importation dans TXM. Placez-les dans le sous-dossier xsl/<étape> approprié lorsque vous utilisez le module d’importation XML-TEI Zero + CSV (XTZ) ou sélectionnez les avec l’option “Front XSLT” de l’interface de paramètres du module d’import XML/w+CSV (XML/w).
Les filtres sont généralement nommés selon le modèle suivant :
txm-filter-[format d’entrée]-[module d’import](-[option])?
[pour télécharger un fichier ci-dessous, faites un clic droit sur son lien puis lancez “Enregistrer la cible du lien sous…”]
Sommaire
- Feuilles de style à utiliser avec le module d’import XTZ
- Feuilles de style de base pour filtrer les sources XML
- Feuilles de style de base pour l’adaptation de sources XML TEI P5
- Feuilles de style de personnalisation des éditions
- Feuilles de style supplémentaires pour des corpus particuliers
- Liste de toutes les feuilles de style CSS livrées avec TXM 0.8.2
Feuilles de style à utiliser avec le module d’import XTZ
Étape 1-split-merge
Placer ces xsl dans le répertoire xsl/1-split-merge de votre répertoire de sources (sous-répertoire 1-split-merge du répertoire xsl).
[en raison d’un bug, cette étape de traitement ne fonctionne pas correctement dans TXM 0.7.8 et 0.7.9. Dans ce cas, ces feuilles de style doivent être appliquées avant l’import à l’aide de la macro ExecXSL ou d’un autre processeur XSLT 2.0]
- txm-rename-files-no-dots.xsl : cette feuille de style est conçue pour que le module d’import XTZ remplace les points par des soulignés dans les noms de fichiers source (un bug dans TXM 0.7.8 empêchait les fichiers contenant des points dans leur nom d’être importés, ce bug a été résolu depuis TXM 0.7.9).
- txm-split-teicorpus : cette feuille de style peut être utilisée pour scinder un fichier contenant un teiCorpus en autant de fichiers textes séparés que d’éléments TEI enfants.
Étape 2-front
Placer ces xsl dans le répertoire xsl/2-front de votre répertoire de sources.
-
txm-front-teiHeader2textAtt.xsl : cette feuille de style copie des métadonnées se trouvant dans le
teiHeaderdans des attributs de l’élémenttextde chaque fichier source. -
txm-front-teitxm2xmlw.xsl : cette feuille de style peut être utilisée pour importer des fichiers au format XML-TEI TXM avec les modules XTZ ou XML/w. Ceci peut servir notamment à importer :
- un corpus déjà tokenisé et annoté en dehors de TXM ;
- un corpus déjà importé dans TXM, par n’importe quel module d’import et dont la représentation pivot est éventuellement retravaillée, tout en préservant l’encodage de ses mots.
Les fichiers au format pivot XML-TEI TXM d’un corpus se trouvent dans le répertoiretxm/NOM-DU-CORPUSde l’archive de son export binaire (voir la commande ‘Exporter > Corpus en format binaire…’).
Étape 3-posttok
Placer ces xsl dans le répertoire xsl/3-posttok de votre répertoire de sources.
-
txm-posttok-addRef.xsl : cette feuille de style peut être utilisée pour personnaliser les références dans les concordances de TXM. Pour cela, elle ajoute aux éléments
wun attribut@refqui est utilisé par TXM pour afficher la référence par défaut dans les concordances. - txm-posttok-unbreakWords.xsl : cette feuille de style peut être personnalisée pour recoller des mots (dont les éléments sont séparés par un saut de ligne ou un saut de page, par exemple) après tokenisation
-
txm-posttok-structure2wordAtt.xsl : cette feuille de style projette dans des attributs de
wle niveau d’imbrication de certains éléments ancêtres.
Par exemple, selon qu’unwest imbriqué dans : - aucun élément
q - 1 seul élément
q(//q//) - 2 éléments
q(//q//q//) - ou 3 éléments
q(//q//q//q//)
leswreçoivent un nouvel attributqà la valeur (resp.) : 012- ou
3
Listez dans le paramètreelementsToProjectles noms des éléments dont il faut calculer l’imbrication, séparés par le caractère|. Dans l’exemple ci-dessus le paramètreelementsToProjectvautq.
Étape 4-edition
Placer ces xsl dans le répertoire xsl/4-edition de votre répertoire de sources.
-
1-default-html.xsl : Cette feuille de style permet de créer des éditions alternatives à l’édition par défaut du module XTZ. Elle fonctionne en tandem avec la feuille 2-default-pager.xsl. Elle transforme chaque élément TEI en un
spanHTML ayant un attribut@class. - 2-default-pager.xsl : Cette feuille de style fonctionne en tandem avec la feuille 1-default-html.xsl. Elle crée autant de fichiers HTML que de pages, pour chaque texte.
Feuilles de style de base pour filtrer les sources XML
-
filter-keep-only-select.xsl : cette feuille de style peut être personnalisée pour ignorer tout le texte et les balises à l’exception du contenu et des ancêtres d’un élément particulier (
selectpar défaut). Positionnez la valeur du paramètretagToKeepau nom de l’élément à sélectionner. -
filter-out-p.xsl : cette feuille de style peut être personnalisée pour ignorer un élément XML particulier (
ppar défaut) et son contenu. -
filter-out-sp.xsl : cette feuille de style peut être personnalisée pour ignorer un élément XML, et son contenu, ayant un attribut à une valeur particulière (élément
spayant l’attribut@whoà la valeurenqueteurpar défaut).
Feuilles de style de base pour l’adaptation de sources XML TEI P5
- txm-filter-teip5-teibfm.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML TEI BFM. Notez que ce module est expérimental et peut échouer si les documents ne suivent pas les principes d’encodage de la BFM.
-
txm-filter-teip5-xmlw-preserve.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML/w. Par défaut, elle ignore les éléments
teiHeaderetfacsimileet leur contenu et préserve tous les autres éléments. -
txm-filter-teip5-xmlw-simplify.xsl : cette feuille de style peut être personnalisée pour importer toute source encodée en TEI P5 avec le module d’import XML/w. Par défaut, elle ignore les éléments
teiHeader,facsimileetnoteainsi que leur contenu, et ignore toutes les balises du corps du texte, à l’exception deb,body,div,front,lb,p,pb,s,TEI,textetw.
Feuilles de style de personnalisation des éditions
- txm-edition-page-split.xsl : feuille de style créant autant de fichiers HTML que de pages, pour chaque texte.
Feuilles de style supplémentaires pour des corpus particuliers
Perseus
- p4top5_perseus.xsl : cette feuille de style est nécessaire pour convertir les fichiers TEI P4 du projet Perseus en TEI P5 avant tout processus d’importation. avec le module XML/w.
- txm-filter-teiperseus-xmlw.xsl : feuille de style pour préparer l’import de textes de Perseus avec le module XML/w (après conversion en TEI P5).
- txm-filter-perseustreebank-xmlw.xsl : feuille de style pour préparer l’import de textes du corpus Treebank de Perseus
Textgrid
- txm-filter-teicorpustextgrid-xmlw.xsl : feuille de style pour préparer l’import de textes Textgrid de DARIAH-DE au format TEI avec le module XML/w.
- txm-edition-xmltxm-textgrid.xsl : feuille de style pour personnaliser les éditions TXM des textes Textgrid de DARIAH-DE.
- txm-filter-teitextgrid-xmlw-posttok.xsl : feuille de style ajustant les propriétés de mots de la version tokenisées des textes Textgrid de DARIAH-DE.
Corpus Akkadien
- txm-filter-corpusakkadien-xmlw_syllabes-cuneiform.xsl : feuille de style pour préparer l’import de textes d’un corpus de tablettes Akkadiennes avec le module XML/w. Voir le wiki du projet pour plus de détails.
- txm-edition-xtz-cuneiform.xsl : feuille de style pour produire les éditions TXM des transcriptions de tablettes Akkadiennes en cunéiforme. Voir le wiki du projet pour plus de détails1. À utiliser avec le module XTZ.
- txm-edition-xtz-corpusakkadien-translit.xsl : feuille de style pour personnaliser les éditions TXM des transcriptions de tablettes Akkadiennes en cunéiforme translittéré. Voir le wiki du projet pour plus de détails1. À utiliser avec le module XTZ.
Queste del Saint Graal
- txm-filter-qgraal_cm-xmlw.xsl : feuille de style pour préparer l’import de fichiers source de la Queste del Saint Graal au format diffracté avec le module XML/w.
RNC
- txm-filter-rnc-xmlw.xsl : feuille de style pour préparer l’import de textes du Corpus National Russe avec le module XML/w.
BROWN
- txm-filter-teibrown-xmlw.xsl : feuille de style pour préparer l’import de textes du corpus BROWN au format TEI avec le module XML/w.
BVH
- txm-filter-teibvh-xmlw.xsl : feuille de style pour préparer l’import de textes du projet BVH au format TEI avec le module XML/w.
- txm-filter-teibvh-xmlw-posttok.xsl : feuille de style corrigeant les erreurs de tokenisation et ajustant les propriétés de mots de la version tokenisée des textes du corpus BVH au format TEI, pour l’import avec le module XML/w.
Frantext
- txm-filter-teifrantext-teibfm.xsl : feuille de style pour préparer l’import de textes de Frantext au format TEI avec le module XML-TEI BFM. Notez que ce module est expérimental et peut échouer si les documents ne suivent pas les principes d’encodage de la BFM.
- txm-filter-teifrantext-xmlw.xsl : feuille de style pour préparer l’import de textes de Frantext au format TEI avec le module XML/w.
XCES-IDS
-
txm-front-idsHeader2textAtt.xsl : feuille de style projetant des métadonnées contenues dans l’élément
idsHeadersur des attributs de l’élémenttext(schéma IDS-XCES du Leibniz-Institut für Deutsche Sprache de Mannheim). - txm-split-xces-ids-corpus2text.xsl : feuille de style qui transforme un fichier du corpus XCES-IDS en autant de fichiers que de textes pour l’import avec le module XTZ.
Pour toute question relative à la bibliothèque XSLT de TXM, merci d’envoyez un mail à textometrie AT groupes.renater.fr.
Liste de toutes les feuilles de style CSS livrées avec TXM 0.8.2
-
Voir aussi un exemple d’édition du corpus OBLCUNEIF en ligne. ↩ ↩2