9 Annoter un corpus
9.4 Annotation avec un modèle Unité-Relation-Schéma (URS) au fil du texte
Dans un modèle d’annotation Unité-Relation-Schéma (URS), les Unités (ou entités) portent sur une séquence contiguë de mots, possèdent un nombre quelconque de propriétés et peuvent être reliées entre elles par les deux autres types d’éléments: les Relations reliant deux éléments du modèle, et ayant un nombre quelconque de propriétés (relation de type 1-à-1), et les Schémas contenant des éléments du modèle, et ayant un nombre quelconque de propriétés (relation de type 1-à-n). Les annotations URS sont conçues pour encoder des éléments du discours comme les chaînes de co-référence au sein des textes (Schnedecker, Glikman, & Landragin, 2017).
Le modèle URS a été créé à l’origine dans le logiciel Glozz (Widlöcher & Mathet, 2009). Il est documenté dans le manuel « Glozz User’s Manual » <http://glozz.free.fr/glozzManual_1_0.pdf>. Il a également été implémenté dans le logiciel Analec49 (Landragin, Poibeau, & Victorri, 2012).
L'annotation d’éléments d’un modèle URS dans TXM se fait par le biais d'une extension Analec50 reprenant l’implémentation du logiciel Analec. Elle permet d'annoter les textes d'un corpus et de réaliser diverses exploitations de ces annotations.
La première version de l'extension permet d'annoter interactivement les unités au sein des éditions de texte de TXM, ainsi que d'enrichir l'annotation, de vérifier sa cohérence, de procéder à quelques extractions pour affichage ou décomptes à l'aide de macros TXM.
L'interface d'annotation des unités reproduit celle du logiciel Analec, dont nous vous invitons à consulter le manuel <http://www.lattice.cnrs.fr/IMG/pdf/ManuelAnalec_1501.pdf> pour apprendre à utiliser la barre d'outils d'annotation des unités (en particulier la section “Annoter des unités” page 15).
9.4.1 Installation de l’extension Analec
Appeler la commande « Fichier > Ajouter une extension » :
choisir l'extension Analec
accepter la licence
lancer l'installation
redémarrer TXM
9.4.1.1 Compatibilité et Prérequis
En mars 2017 sous Windows 7 : pour que l'extension Analec puisse mettre en évidence les unités annotées dans l'édition vous devez disposer d'une version d'Internet Explorer plus récente que celle livrée avec le système d'exploitation (dans ce cas il faut mettre à jour votre Internet Explorer vers une version plus récente) [voir le ticket #2017 <http://forge.cbp.ens-lyon.fr/redmine/issues/2017>].
9.4.2 Préparation d'un corpus pour l'annotation
9.4.2.1 Corpus TXM quelconque
Tout corpus importé dans TXM peut être annoté avec un modèle URS.
Il faut pour cela lui associer au préalable un modèle URS :
soit en important la description d'un modèle d'annotation depuis un fichier d'extension « .aam » à l'aide de la commande « Analec > Import Glozz model… », après avoir sélectionné le corpus qui va recevoir le modèle d'annotation dans la vue Corpus
on trouvera le fichier modèle URS de référence du projet ANR DEMOCRAT à l'adresse suivante democrat.aam.
-
soit en l'éditant directement au moyen de la commande « Analec > Edit Annotation Structure »
Dès qu'un modèle URS est associé à un corpus, son Édition dispose d'un bouton « Annoter » actif (bouton « crayon » situé en bas à gauche) qui permet de lancer une session d'annotation interactive.
9.4.2.2 Corpus TXM prêts à l'annotation
Certains corpus binaires contiennent déjà un modèle URS. Par exemple le projet ANR DEMOCRAT51 propose un corpus binaire exemple contenant déjà le modèle URS du projet :
-
télécharger le corpus « PRINCESSE-modèle-annotation-democrat-sans-annotations.txm »52
-
depuis TXM charger le corpus PRINCESSE-modèle-annotation-democrat-sans-annotations.txm avec la commande du menu « Fichier > Charger »
→ un nouveau corpus PRINCESSEBRUTSIMPLIFIETEXTE apparaît dans la vue Corpus ; -
voir la section « Créer des annotations… » suivante pour procéder à l'annotation.
9.4.2.3 Corpus déjà annotés dans Analec ou Glozz
Il y a deux façons d'importer dans TXM un corpus déjà annoté dans Analec :
-
Import XML-TEI Analec de corpus : à partir d'un fichier XML-TEI Analec exporté depuis Analec ;
-
Import Glozz de corpus : à partir de 3 fichiers d’extensions « .aa », « .aam » et « .ac » exportés depuis Analec ou Glozz.
Import XML-TEI Analec de corpus
-
lancer la commande « Analec > Import XML-TEI Analec Corpus… » en lui fournissant l'argument suivant :
xmlFile : le fichier XML-TEI Analec exporté depuis Analec (eg Le_Capitaine_Fracasse_or.xml)
→ un nouveau corpus LECAPITAINEFRACASSEOR est ajouté à la vue Corpus (il a été importé par une version interne du module TXT+CSV de TXM et contient les annotations Analec et leur modèle URS)
Le corpus résultat contient un seul texte dont le nom correspond à celui du fichier importé.
Exemple de fichier XML-TEI Analec du projet ANR DEMOCRAT : Le_Capitaine_Fracasse_or.xml.
Import Glozz de corpus : à partir de trois fichiers .aa, .aam et .ac
-
lancer la commande « Analec > Import a Glozz corpus… » en lui fournissant les arguments suivants :
aafile : le fichier d'annotations (eg Cleves-brut-simplifie-annotations.aa)
aamfile : le fichier modèle d'annotations (modèle URS) (eg Cleves-brut-simplifie-structure-annotation.aam)
acfile : le fichier texte (eg Cleves-brut-simplifie-texte.ac)
→ un nouveau corpus CLEVESBRUTSIMPLIFIETEXTE est ajouté à la vue Corpus (il a été importé par une version interne du module TXT+CSV de TXM et contient les annotations Analec ou Glozz et leur modèle d'annotation URS)
Exemple de fichiers .aa, .aam et .ac exportés depuis Analec pour le projet ANR DEMOCRAT : Cleves-brut-simplifie.zip.
Le module d'import vous demandera de désigner un répertoire contenant votre corpus (.ac) et vos annotations (.aa). Le fichier modèle d'annotation (.aam) peut se trouver dans un autre répertoire.
Le corpus résultat contient un seul texte dont le nom correspond à celui du fichier d’extension « .ac ».
9.4.3 Annoter des unités interactivement depuis une édition de texte
9.4.3.1 Lancer une session d'annotation
-
ouvrir l'édition du corpus, par exemple PRINCESSEBRUTSIMPLIFIETEXTE, (clic droit sur l'icone du corpus et menu contextuel « Edition ») ;
-
cliquer sur le bouton « Annoter » (bouton crayon situé en bas de l'édition à gauche) ;
-
la barre d'outils des unités s'ouvre en haut de l'édition ;
-
ainsi que la fenêtre d'édition des unités (vue « Unit ») située en bas de l'édition ;
-
remarque : dans TXM les annotations Analec sont posées sur les mots et non sur les caractères comme dans Analec. Les mots sont les mots simples définis par TXM (pas composés, souvent étiquetés et lemmatisés, etc.) ou par l'utilisateur selon le module d'import de textes sources qui a été utilisé pour créer le corpus. Le corpus PRINCESSE a été importé avec le module TXT+CSV en appliquant le modèle TreeTagger français (le s long - ſ - ruine les performances). Il s'agit donc de mots standards (par défaut) de TXM. La ponctuation est assimilée aux mots (eg la virgule est un mot que l'on peut sélectionner).
9.4.3.2 Visualiser les unités présentes
-
dans la barre d'outils des unités sélectionner un type d'unité → toutes les unités de ce type sont mises en évidence dans la page.
9.4.3.3 Créer des unités
sélectionner quelques caractères ou la totalité d'un mot dans l'édition
créer l'unité correspondant au mot avec le bouton « Créer » de la barre d'outils des unités ou la touche « Entrée » du clavier
sélectionner plusieurs mots (ou portions de mots) dans l'édition
créer l'unité avec le bouton « Créer »
double-cliquer sur un mot
créer l'unité avec la touche « Entrée » du clavier
-
les unités sont mises en évidence avec la couleur vert clair et l'unité courante avec du vert foncé
9.4.3.4 Éditer les propriétés d'une unité
-
cliquer directement sur l'unité ou bien la sélectionner par son identifiant dans le menu des identifiants d'unités (voir la section « sélection des unités » ci-dessous) ;
-
les propriétés de l'unité s'affichent dans la vue « Unit » et sont éditables ;
-
la valeur d'une propriété peut être choisie dans la liste des valeurs déjà connues (bouton [▼]) ;
la valeur peut également être saisie directement :
la saisie active automatiquement un mécanisme d'auto-complétion
l'auto-complétion affiche la liste des valeurs déjà connues commençant par ce qui a déjà été saisi
cette liste sert à choisir directement la valeur souhaitée sans avoir à la re-saisir entièrement
navigation dans la liste
sélectionner la valeur suivante ou précédente (+1 ou -1)
Flèche_vers_le_bas ou Flèche_vers_le_haut
sélectionner la valeur +10 ou -10
Page_vers_le_bas ou Page_vers_le_haut
sélectionner la première ou la dernière valeur
Début ou Fin
continuer la saisie réduit la liste des valeurs proposées
la touche Échap ou Esc (en haut à gauche du clavier) permet de quitter le mode d'auto-complétion : la saisie continue là où elle en était
9.4.3.5 Sélectionner des unités
depuis l'édition :
cliquer sur l'unité → l'unité est mise en évidence et ses propriétés s'affichent dans la vue Unit ;
aller à l'unité suivante avec le raccourci clavier Ctrl-Flèche_vers_le_bas (tout en maintenant la touche 'Ctrl' enfoncée, appuyer sur la touche 'Flèche_vers_le_bas') ;
aller à l'unité précédente avec le raccourci clavier Ctrl-Flèche_vers_le_haut.
depuis la barre d'outils des unités (située en haut de l'édition)
utiliser les boutons de flèches droite [▶] et gauche [◀] pour aller à l'unité suivante ou précédente
cliquer sur l'identifiant courant :
aller à l'unité suivante avec la touche Flèche_vers_le_bas ou avec la molette de la souris vers le bas ou deux doigts glissés vers le haut sur le trackpad (le sens peut être inversé selon les systèmes d'exploitation) ;
aller à l'unité précédente avec la touche Flèche_vers_le_haut ou avec la molette de la souris vers le haut ou deux doigts glissés vers le bas sur le trackpad ;
aller 10 unités plus loin avec la touche Page_vers_le_bas ;
aller 10 unités en arrière avec la touche Page_vers_le_haut ;
la navigation dépassant la fin de la liste cycle au début de la liste (même chose pour le dépassement du début de la liste) ;
sélectionner l'unité par la saisie de son identifiant puis validation avec la touche Entrée :
pendant la saisie, on peut activer l'auto-complétion avec le raccourcis Ctrl-Espace ;
quand l'auto-complétion est activée la liste des identifiants correspondants à ce qui a déjà été saisi s'affiche
cette liste sert à choisir directement l'identifiant souhaité sans avoir à saisir la totalité de l'identifiant
navigation dans la liste
sélectionner l'identifiant suivant ou précédent (+1 ou -1)
molette de la souris
Flèche_vers_le_bas ou Flèche_vers_le_haut
sélectionner l'identifiant +10 ou -10
Page_vers_le_bas ou Page_vers_le_haut
continuer la saisie réduit la liste des identifiants proposés
9.4.3.6 Rechercher des unités par la valeur de leurs propriétés
On peut rechercher des unités par leurs propriétés en cliquant sur le bouton “Chercher” (icone de loupe). Cette commande ouvre un formulaire de recherche dans une nouvelle vue, qui s'ouvre par défaut en bas de l'interface de TXM.
Le formulaire de recherche comporte :
sur la première ligne :
à gauche
un bouton “Chercher” qui lance la recherche en utilisant les critères courants du formulaire ;
un bouton de remise à zéro des critères de recherche.
à droite
des boutons de navigation dans les résultats : aller au premier résultat, précédent, numéro de résultat courant, suivant, dernier ;
un bouton “Concordance” pour afficher la concordance des mots des unités correspondants à la recherche.
sur les lignes suivantes : un champ de recherche par propriété
on saisit la valeur recherchée dans le champ de la propriété concernée ;
chaque champ dispose d'un menu déroulant des valeurs possibles de la propriété ;
un champ peut contenir soit une valeur exacte soit une expression régulière ;
on peut faire la recherche dans plusieurs propriétés à la fois pour une recherche combinée ;
si un champ est laissé vide alors la propriété ne participe pas à la recherche.
9.4.3.7 Rectifier les bornes d'une unité
Il y a 3 modes de rectification des bornes d'une unité :
corriger la borne gauche :
1) sélectionner l'unité
2) cliquer sur le bouton 'corriger la borne gauche' ”[ ↔”
3) cliquer sur le mot qui sera la nouvelle borne gauche de l'unité
corriger la borne droite :
1) sélectionner l'unité
2) cliquer sur le bouton 'corriger la borne droite' “↔ ]”
3) cliquer sur le mot qui sera la nouvelle borne droite de l'unité
corriger simultanément la borne gauche et la borne droite :
1) sélectionner l'unité
2) cliquer sur le bouton 'corriger les bornes gauche et droite' ”[ ↔”
3) sélectionner les mots qui formeront les nouvelles bornes de l'unité (comme lors de la création d'une unité)
9.4.3.8 Créer des unités à cheval sur deux pages d'édition
Selon le module d’import utilisé, et certains paramètres d’import comme le nombre de mots par page, certaines éditions de textes peuvent être paginées. Dans ce cas s’il est nécessaire de créer des unités à cheval sur plusieurs pages :
-
créer l'unité à partir de ses premiers mots dans la première page (derniers mots de la page) ;
-
lancer la rectification des bornes ;
-
passer à la page suivante ;
-
étendre l'unité à ses derniers mots
→ actuellement l'affichage bugue : les unités s'effacent, on peut changer de page et revenir pour ré-afficher correctement ; -
on procède de la même manière pour créer une unité à partir de ses derniers mots situés dans la deuxième page (premiers mots de la page) ;
-
si l'unité s'étend sur plus de deux pages, suivre la même procédure en se déplaçant du nombre de pages nécessaire.
9.4.3.9 Supprimer une annotation
-
sélectionner une unité en vert clair par un clic, elle devient vert foncé ;
-
la supprimer avec le bouton “Supprimer” ou la touche “Suppr” du clavier.
9.4.4 Annoter des éléments URS automatiquement par scripts
Les macros qui suivent permettent à l'utilisateur de prototyper des scripts d’annotation URS basés sur des annotations URS et toutes autres informations disponibles dans la plateforme TXM.
9.4.4.1 Utilisation de macros
Pour exécuter les macros il faut :
-
ouvrir la vue Macro avec la commande « Affichage > Vues > Macro » ;
-
éventuellement glisser-déposer cette vue par son onglet à un endroit pratique, par exemple dans la moitié inférieure de la vue Corpus ;
-
ouvrir le répertoire de macros « analec » ;
-
double-cliquer sur le nom d'une macro pour la lancer.
En général, il faut sélectionner le corpus sur lequel on veut travailler dans la vue Corpus avant de lancer la macro.
Pour lire ou modifier le code Groovy d'une macro :
-
clic droit sur le nom de la macro dans la vue Macro ;
-
lancer la commande « Éditer » du menu contextuel :
→ un éditeur de texte s'ouvre avec le code de la macro -
quand on clique dans la vue de l'éditeur de texte (pour y placer le curseur de saisie) la barre d'outils d'édition remplace celle des corpus ;
-
ne pas oublier de sauver les modifications (avec le bouton « disquette »/sauver de la barre d'outils) avant de relancer la macro.
9.4.4.2 Macros d'ajouts d'annotations
-
PremierMaillon : ajoute une propriété NEW à la valeur ‘YES’ aux unités d’un certain type si la valeur de sa propriété REF est rencontrée pour la première fois et ‘NO’ sinon53.
-
AjoutDefinitude : ajoute une propriété DEFINITUDE à une des valeurs ‘DEFINI’, ‘INDEFINI’, ‘DEMONSTRATIF’, ‘AMBIGU’ ou ‘NONE’ aux unités d’un certain type ;
-
CreationChaines : crée des schémas de type 'CHAINE' composés d'unités ayant la propriété 'REF' de valeur identique ;
-
ResetAnnotations : supprime toutes les annotations du corpus ;
-
CompUnitProperties : en travaux ;
-
Frpos2Categorie : remontée de propriétés morphosyntaxiques de mots en français moderne dans des propriétés d'unités qui les contiennent (en travaux) ;
-
Fropos2Categorie : remontée de propriétés morphosyntaxiques de mots en ancien français dans des propriétés d'unités qui les contiennent (en travaux) ;
-
CreationRelations : en travaux.
9.4.5 Enregistrer les annotations
Le travail d’annotation est sauvegardé avec le bouton d'enregistrement (bouton crayon+disquette situé en bas à gauche de l'édition).
Il est important de sauvegarder régulièrement son travail, notamment parce que la fonction annuler n’est pas disponible.
9.4.6 Exploiter des annotations URS avec des macros
Les macros qui suivent permettent à l'utilisateur de prototyper des calculs basés sur des annotations Analec et toutes autres informations disponibles dans la plateforme TXM.
9.4.6.1 Macros de vérification de cohérence
Ces macros sont accompagnées de macros préliminaires de contrôle de la cohérence des annotations (proto-validation des annotations d'un texte par rapport à la structure d'annotation utilisée). Elles ont été développées pour vérifier la cohérence des annotations entre plusieurs annotateurs (les mesures supposent une cohérence parfaite).
-
UnitTypes : index des types d'unités, des schémas d'un certain type ;
-
CategorieGrammaticale : index des valeurs de propriétés, des unités d'un certain type, des schémas d'un certain type ;
-
SchemaTypes : index des types de schémas ;
-
UnitTypesInSchema : ibid. ;
-
UnitTypesNotInSchema : index des types d'unités non associées aux schémas d'un certain type ;
-
CheckAnnotationStructureValues : recense et supprime (si demandé au lancement de la macro) toutes les valeurs d'une propriété d'un type donné d’unité de la structure d'annotation non utilisées par les unités du corpus.
9.4.6.2 Macros de mesures
Un premier jeu de macros a été réalisé pour calculer différentes mesures à l'occasion de l'écriture d'un article pour Langue française n° 195 (3/2017) (CG, JG, VO).
-
NombreDeChaines : nombre de chaînes de référence du corpus ;
-
LongueurMoyenne : longueur moyenne des chaînes de référence et index hiérarchique des longueurs de chaînes du corpus ;
-
NatureDuPremierMaillon : index des valeurs d'une propriété donnée de la première unité de chaque chaîne du corpus ;
-
CoefficientStabilite : rapport entre le nombre d'unités ayant la propriété 'Catégorie' à la valeur 'GN Défini' ou 'GN Démonstratif' ou 'Nom Propre' et le nombre de formes différentes représentant ces unités du corpus ;
-
DensiteReferentielle : rapport entre le nombre d'unités d'un certain type et le nombre de mots du corpus (en %) ;
-
DistanceInterMaillonnaire : histogramme des distances, en mots ou en caractères, entre le dernier mot d'une unité et le premier mot de la suivante du corpus.
-
AllMesures : calcul simultané de toutes les mesures précédentes.
9.4.6.3 Macros de visualisation d’annotations
-
Units : affichage de toutes les unités d’un certain type, sous la forme : n° identifiant - adresse premier mot → adresse dernier mot, propriétés ;
-
Chaines : affichage des valeurs d'une propriété des unités d'une chaîne. Son option buildCQL en particulier permet d'exploiter les autres outils de TXM comme les concordanciers, index, etc.
Cette macro liste pour chaque chaîne d'un corpus la valeur de sa propriété « Nom du référent » (par défaut) suivie des formes (par défaut) de ses unités successives.
Par exemple pour le corpus DESPERIERS pour la propriété 'word' (forme graphique) des mots on obtient :
Caillette: à Caillette, le povre Caillette, disoit, il, qu’il, sa, le, le, l’ha, l’ha, l’ha, Caillette, son, tu, Caillette, je, de ce sage homme Caillette, Caillette, qui, moy, luy, Caillette, Caillette, le, luy, luy, son, il, luy, il, Je, va
auteur: LES pages, les pages, les pages, tous ses gens de bien de pages, leur, à tous l’un apres l’autre, vous, qu’ilz, tous, qu’ilz, les, n’en, tant d’honnestes jeunes gens, qui, tous, les autres, avec les pages, je
un Seigneur de cour: un des Seigneurs de court, qui, qui, du Seigneur, ses
lecteur: vous, vous, vous, vous
un page (2): moy, qu’un, lequel, il, je
auteur: mon, je, Moy, m’escouter, je, Mon
Triboulet: Triboulet, Qui, ses, sa, Il, il, il, Il, luy, le, le, luy, vous, vous, vous, Triboulet, qui, son, luy, son, Triboulet, il, il, vous, son, Triboulet, il, je, je
maitre de Triboulet: un maistre, povre maistre, tu, Ce maistre, je, son maistre, son maistre
le cheval: son cheval, le cheval, qu’il, le, luy, luy, cheval, ce meschant cheval, le, il
les hommes: d’hommes, lesquelz, ilz, savent, qu’ilz
Polite: un autre fol nommé Polite, qui, Polite, mit, il, il, qu’il, il, tenoit, il, Polite, tu, Po lite, il
Abbé de Bourgueil: à un abbé de Bourgueil, Monsieur l’abbé, luy, le, l’abbé, Moyne, moy, l’abbé, moy, moy, l’abbé, l’abbé, moy, le moyne, il, il
le chantre: un chantre, qui, lequel, qu’il, qu’il, l’appelloyent, luy, luy, son, il, je, je, Je, je, Je, Sa, luy, te, luy, t’en, il, luy, t’oubliera, tu, luy, qu’il, ce Bassecontre, servoit, il, sa, qu’il, le povre chantre, luy, le Bassecontre, qu’il, qu’il, son, son, sa, il, il, qu’il, il, qu’il, il, il, pria, luy, sa, qu’il, il, qu’il, luy, luy, ce Bassecontre, sa, sa, le chantre, lequel, me, il, il, qu’il, Le chantre, Mon chantre, qui, venoit, luy, il, il, tu, tes, ce fol, le Bassecontre, il, Je, me, je, t’ha, tu, il, il, je, qu’il, tu, tu, il, apporta, qu’il, qu’il, son, luy, ses
les chanoines: les chanoines, qui, qu’ilz, d’eux, tes chanoines, nous
partie des chanoines: Monsieur, vous, vous, vous autres, d’eux, ilz, messieurs, ilz, des messieurs, qu’ilz, leur, ilz
messieurs tel et tel: messieurs tel et tel, ceux, qu’il, leur, ilz, leur, d’eux, messieurs, eux
principaux chanoines: aux principaux d’entre eux, les, l’un apres l’autre, qu’ilz, leur, leur, leur, les, leur, Ilz, ilz, qu’ilz, leur, messieurs, qui, tous, leurs, leur, ilz, ilz, ilz, ilz, chacun, leur, qu’ilz, leur, ilz, nous, nous, les nostres, les vostres, Les nostres, ilz, chacun, leurs, ilz, avons, les, Messieurs, voz, ilz, vous, vous autres messieurs, vous, chacun, soy, vous, vous, vous, vous, vostre, vous, voz, ilz, ilz, nous, nous, vous, leur, leur, ilz, allerent, conclurent, qu’ilz
un chanoine: monsieur vostre maistre, il, il, il
un chanoine2: je, l’un, j’avois, je
un autre chanoine: l’autre, j’avois, je, moy
valets chanoines: aux valetz, qui, qu’ilz
on: on, qu’on, qu’on, qu’on
Si on coche l'option buildCQL de cette macro, on génère à la place une requête par chaîne qui cherche tous les mots de ses unités.
Par exemple pour la chaine Caillette on obtient :
Caillette: ([id="w_Desperiers_17"] [id="w_Desperiers_18"])|([id="w_Desperiers_27"] [id="w_Desperiers_28"] [id="w_Desperiers_29"])|([id="w_Desperiers_35"])|([id="w_Desperiers_39"])|([id="w_Desperiers_46"])|([id="w_Desperiers_53"])|([id="w_Desperiers_65"])|([id="w_Desperiers_75"])|([id="w_Desperiers_92"])|([id="w_Desperiers_102"])|([id="w_Desperiers_108"])|([id="w_Desperiers_122"])|([id="w_Desperiers_126"])|([id="w_Desperiers_139"])|([id="w_Desperiers_150"])|([id="w_Desperiers_152"])|([id="w_Desperiers_177"] [id="w_Desperiers_178"] [id="w_Desperiers_179"] [id="w_Desperiers_180"] [id="w_Desperiers_181"])|([id="w_Desperiers_250"])|([id="w_Desperiers_255"])|([id="w_Desperiers_264"])|([id="w_Desperiers_276"])|([id="w_Desperiers_288"])|([id="w_Desperiers_349"])|([id="w_Desperiers_356"])|([id="w_Desperiers_363"])|([id="w_Desperiers_368"])|([id="w_Desperiers_374"])|([id="w_Desperiers_381"])|([id="w_Desperiers_388"])|([id="w_Desperiers_390"])|([id="w_Desperiers_394"])|([id="w_Desperiers_402"])
On peut alors copier/coller la requête de Caillette dans le champ “Requête” d'une concordance et on obtient :
La concordance permet alors également de naviguer dans la chaîne par retour au texte :
Pour obtenir cet affichage :
-
on double-clique sur la ligne de « le povre Caillette »
-
dans l'édition qui s'ouvre on clique sur le bouton « Annoter » pour faire apparaître les unités dans l'édition ainsi que la fenêtre inférieure 'Maillon' qui donne le détail des valeurs des propriétés du maillon 'le povre Caillette'
-
en double-cliquant sur chaque ligne de concordance, on visualise l'unité correspondante dans le contexte de l'édition ainsi que la valeur de ses propriétés.
On peut par ailleurs tester par exemple la Progression de plusieurs chaînes, l'index des mots des unités d'une chaîne, etc.
-
Relations : affichage des valeurs d'une propriété des unités d'une relation d'un certain type ;
-
Schemas2Progression : affiche le graphique de progression des N chaines les plus longues.
9.4.7 Exporter des annotations
9.4.7.1 Dans un corpus binaire TXM
-
S'assurer que les dernières modifications ont bien été enregistrées avec la commande « Analec > Sauvegarder les annotations » ;
-
Exporter le corpus dans un fichier .txm avec la commande « Fichier > Exporter ».
9.4.7.2 Au format XML-TEI URS
-
la commande “Fichier > Exporter > Corpus au format XML-TEI URS…” exporte les annotations dans une archive d'extension « .urs » dont le format est spécifié dans la page de wiki Commande Exporter Corpus au format XML-TEI URS...54 (Grobol, Landragin, & Heiden, 2017).
9.4.7.3 Au format Glozz
-
la commande “Fichier > Exporter > Corpus au format Glozz…” exporte les annotations des unités d'un certain type dans un fichier au format Glozz.
9.4.8 Importer des annotations
Il est possible d'importer dans un corpus TXM pré-existant des annotations URS représentées dans le format XML-TEI URS. Pour cela il faut que les textes du corpus contiennent des mots correspondants aux annotations (les annotations sont définies par les empans de mots sur lesquels elles s'appliquent).
La commande “Import XML-TEI URS annotations…” du menu principal Analec importe les annotations URS à partir d'un ou de plusieurs fichiers d'annotations encodées au format XML-TEI URS.
Elle prend comme paramètres :
-
directory : un répertoire contenant les fichiers d'annotations encodées au format XML-TEI URS (ce qui correspond au répertoire « annotations » d’une archive « .urs ») ;
-
aamFile : un fichier au format XML Glozz '.aam' de déclaration de la structure d'annotation utilisée par les fichiers d'annotations (ce qui correspond au fichier « .aam » d’une archive « .urs ») ;
-
resetAnnotations : une option pour supprimer ou non toutes les annotations pré-existantes du corpus avant l'import.
Remarques :
-
les textes composant le corpus recevant les annotations doivent contenir des mots dont l'identifiant correspond à celui des mots sur lesquels sont ancrées les annotations importées ;
-
les annotations importées ne trouvant pas de mots avec leurs identifiants cibles dans le corpus seront ignorées ;
-
lors de l'import à partir de N fichiers d'annotations correspondant à N textes présents dans le corpus, les annotations seront importées automatiquement dans leur texte à partir de leurs identifiants de mots.
49 http://lattice.cnrs.fr/Telecharger-Analec
50 Le développement a été financé par le projet ANR DEMOCRAT <http://www.lattice.cnrs.fr/democrat>.
51 http://www.lattice.cnrs.fr/democrat
52 La « Princesse de Clèves » équipé du modèle d'annotation DEMOCRAT mais sans annotations.
53 ATTENTION : Le champ « NEW » est ajouté dans la structure, mais il n'est pas affiché dans la vue. On ne peut donc pas le corriger directement. Pour le faire, il faut d’abord enregistrer les annotations et relancer TXM. La vue sera alors rafraîchie.
54 <https://groupes.renater.fr/wiki/txm-info/public/annotation/specs_annotation_analec/export_import#commande_exporter_corpus_au_format_xml-tei_urs>