9 Annoter un corpus

9.1 Annotation simple par concordances

Pour les corpus importés avec le module XTZ+CSV48, un nouveau bouton d' « Annotation » (bouton crayon) situé en haut à gauche des concordances permet d'annoter des pivots directement.

Par exemple, dans une concordance de « Paris » dans l'Assommoir d'Émile Zola:

Image10

on annote 3 lignes particulières avec l'annotation « ville » :

Image33
Illustration 9.1: Annotation d’occurrences du mot "Paris" par la catégorie "ville"

9.1.1 Sauvegarde des annotations et exploitation avec TXM

Après avoir cliqué dans une concordance sur le bouton "Annoter", qui a une icone de crayon, pour lancer une session d'annotation, il bascule en bouton "Enregistrer les annotations" avec l'icone crayon+disquette. Cliquer sur le bouton crayon+disquette sauvegarde les annotations de la session courante, ce qui permet ensuite d'exploiter les annotations. On peut utiliser les annotations directement dans des requêtes CQL à l’aide de l’expression de structure « <span_ref="..."> ». C'est à dire que l'annotation crée une nouvelle structure « span » dans le corpus (autour des pivots annotés), et l'annotation devient la valeur de son attribut « @ref ».

Image34
Illustration 9.2: Recherche de l'annotation "ville"

Par exemple, pour refaire directement la concordance des 3 pivots annotés précédemment :

9.1.2 Encodage de plusieurs informations dans l’annotation

L'annotation est une chaîne de caractères quelconque et de n'importe quelle longueur, donc on peut la structurer librement, par exemple avec des séparateurs (« type=lieu,sous-type=ville,valeur=Paris... » ou « lieu,ville,Paris... » par exemple), puis la dé-structurer au moment des extractions par des expressions régulières dans les requêtes CQL. Par exemple : tout ce qui est étiqueté 'lieu-qlqchose' : <span_ref="type=lieu,.*"> []+ </span> pour l’encodage « type=lieu,sous-type=ville,valeur=Paris... » ou encore  <span_ref="lieu,.*"> []+ </span> pour l’encodage « lieu,ville,Paris... ».

Autres exemples de requêtes d’extraction pour l’encodage « lieu,ville,Paris... » :

9.1.3 Combinaison de recherche d’annotations et de propriétés de mots

L’expression de recherche d’annotations peut se combiner avec la recherche de propriétés de mots au sein d’une expression de recherche d’occurrences.

Par exemple :

9.1.4 Visualisation des annotations dans une concordance

Il est possible de visualiser les annotations dans une concordance, il suffit d’y lancer une session d’annotation qui affichera les annotations de pivots existantes dans une colonne supplémentaire. Il n’est alors pas nécessaire de faire une annotation.

Une autre façon est de faire afficher les propriétés « ref » des structures « span » dans les références.

9.1.5 Transmission des annotations entre différents TXM

Après avoir sauvegardé les annotations, ces dernières font partie intégrante du corpus binaire. Il suffit donc d’exporter le corpus binaire (avec la commande 'Fichier > Exporter > Corpus au format binaire) dans un fichier .txm et de le transmettre à un correspondant. Le correspondant charge le corpus binaire (avec la commande 'Fichier > Charger) puis exploite le corpus et ses annotations comme pour n'importe quel corpus binaire.


48  Pour pouvoir utiliser ce module d’import, il suffit d’avoir des sources au format XML. Pour passer facilement du format texte brut (TXT) au format XML, voir la macro TXT2XML.