8 Analyser un corpus
8.3 Lexique et Index
Les listes de mots peuvent être obtenues via deux commandes complémentaires :
-
Lexique : calcule la liste hiérarchique de toutes les valeurs d'une propriété de mot donnée d'un corpus ou sous-corpus (la fréquence de chaque forme graphique, de chaque lemme, etc.) ;
-
Index : calcule la liste hiérarchique des combinaisons de valeurs de propriétés correspondant aux occurrences d'une requête CQL cherchée dans un corpus ou un sous-corpus (la fréquence de chaque lemme de substantifs, des formes graphiques des occurrences de la séquence « Adj Subst », etc.).
8.3.1 Lexique
La commande Lexique calcule la liste des fréquences de toutes les valeurs de propriétés lexicales d'un corpus ou d'un sous-corpus (par exemple : des formes de mots, des étiquettes morphosyntaxiques, des lemmes, etc). Par défaut, à l'ouverture, la commande calcule le lexique de la propriété lexicale « word » (celui des formes).
Le résultat se présente sous forme d'un tableau :

Illustration 8.4 : liste hiérarchique des formes graphiques des mots du corpus DISCOURS.
Vous pouvez trier le tableau par chaque colonne en cliquant sur son entête (exemple tri par les formes ou tri par les fréquences). Un nouveau clic inverse l'ordre de tri.
Vous pouvez exporter ce tableau au format CSV en sélectionnant l'icone du lexique de la vue Corpus.
8.3.2 Index
La commande Index établit la liste de fréquences des propriétés des occurrences d'une requête CQL pour un corpus, sous-corpus ou une partition donnée.

Illustration 8.5 : Fenêtre de la commande Index.
8.3.2.1 Choix du jeu de propriétés de mots à lister
Les occurrences sont décomptées en fonction des propriétés de mots sélectionnées. Par défaut ce sont les formes des mots des occurrences de la requête qui sont listées et décomptées (« word »). TXM permet également de construire la liste à partir des catégories grammaticales des mots, de leur lemme ou de toute propriété de mots encodée dans le corpus et de combinaisons de ces propriétés.
On peut sélectionner le jeu de propriétés à combiner avec le bouton « Éditer »40 :

Illustration 8.6 : Fenêtre d'édition des propriétés de mot.
Sélectionner dans la liste de gauche les propriétés que l'on souhaite ajouter41. Faîtes les basculer grâce aux flèches qui permettent d'ajouter ou de retirer les propriétés :
-
« > » : permet d'ajouter une propriété (on peut aussi double-cliquer sur une propriété dans la liste de gauche) ;
-
« < » : permet de retirer une propriété (on peut également double-cliquer sur une propriété dans la liste de droite) ;
-
« ^ » : permet de modifier l'ordre d'une propriété vers le haut (la propriété qui se trouve tout en haut sera celle qui s'affichera en premier) ;
-
« v » : permet de modifier l'ordre d'une propriété vers le bas.
8.3.2.2 Requêtes
Vous pouvez utiliser les mêmes requêtes CQL que pour les concordances (ainsi que l'assistant de requêtes).

Illustration 8.7 : Index formé sur les propriétés 'word' et 'pos' pour le lemme « pouvoir », dans le corpus DISCOURS.
8.3.2.3 Index d’une partition
L’Index appliqué à une partition calcule le tableau des fréquences ventilées par parties. Ce tableau peut alors être transformé en une table lexicale pour être soumis au calcul des spécificités ou à une AFC.
Illustration 8.8: Index de partition
8.3.2.4 Filtrage des résultats
Vous pouvez élaguer les résultats avec :
-
Fmin : fréquence minimum à partir de laquelle on ajoute un résultat à la liste ;
-
Fmax : fréquence maximum ;
-
Vmax : nombre maximum de résultats à afficher. Par exemple si Vmax = 100, on obtiendra les 100 premières valeurs triées par la fréquence ;
-
page size : nombre de résultats par page.
8.3.2.5 Navigation dans les résultats
L'index affiche d'abord la première page de résultats.
Vous pouvez naviguer dans l'ensemble des résultats avec les boutons suivants :
-
« [|<] » : retour à la première page des résultats ;
-
« [<] » : retour à la page précédente ;
-
« [>] » : aller à la page suivante ;
-
« [>|] » : aller à la dernière page.
8.3.2.6 Appel de commandes à partir des résultats
La commande index est liée aux commandes Concordance et Progression.
Vous pouvez sélectionner certaines lignes de l'index avec la souris42, puis par l'intermédiaire du menu contextuel, choisir la commande à exécuter :
-
« Envoyer vers les concordances » : une requête CQL correspondante sera créée afin de construire la concordance.
-
« Envoyer vers progression » : autant de requêtes CQL que de lignes sélectionnées seront créées pour construire une progression.
40 Dans l'exemple, la propriété 'word' désigne la forme graphique du mot.
41 Un double-clic sur un mot le fait basculer à droite directement.
42 Shift-clic gauche permet de sélectionner des lignes contiguës. Ctrl-clic gauche permet de sélectionner plusieurs lignes non contiguës.