8 Analyser un corpus
8.11 Spécificités
La commande Spécificités calcule une statistique indiquant si les occurrences d'un mot ou d'une requête CQL paraissent en surnombre (ou en sous-effectif) dans chaque colonne d'une table lexicale, dans chaque partie d’une partition ou dans un sous-corpus par rapport à son corpus parent.
8.11.1 Indice de spécificité
Afin d’analyser la spécificité d’apparition d’un événement textuel dans une partie d'un corpus plutôt qu’une autre, un événement étant défini comme l’apparition d’un mot ou d’une expression CQL quelconque, on peut progressivement estimer le nombre d’apparitions le plus vraisemblable de la manière suivante :
-
Le décompte des occurrences de l'expression CQL (ou d'une forme graphique simple) dans chaque partie, soit la fréquence, permet de se faire une première idée contrastive entre les parties.
-
Diviser cette fréquence par le nombre total d’occurrences se trouvant dans la partie considérée (ou dira aussi la taille de la partie) permet d’utiliser les « fréquences relatives » (comme dans le moteur Stella de la base de textes FRANTEXT par exemple). On a alors « normalisé » la fréquence ou encore on l’a pondérée indépendamment de la taille de chaque partie. Ce qui permet de comparer plus sereinement les fréquences entre elles.
Équation 8.25: Maximum de vraisemblance d’apparition dans une partie.
A : l’événement recensé ;
V : l’ensemble des événements possibles (le vocabulaire pour les mots) ;
p : la partie considérée ;
f : la fréquence de l’événement dans la partie ;
F : la fréquence totale de l’événement dans le corpus ;
t : le nombre total d’événements ayant lieu dans la partie ;
T : le nombre total d’événements ayant lieu dans l’ensemble des parties.
On peut faire plus précis que cela encore : c’est l’objet du calcul de la mesure de spécificité d’une apparition dans une partie mise en œuvre dans TXM. En effet, normaliser en divisant par la taille de la partie nous fait considérer implicitement (ou non) que les fréquences relatives sont représentatives des fréquences d’origine (avant la division par la taille). Pour ce faire, en se trompant le moins possible en dehors de toute information complémentaire, on peut considérer la fréquence relative comme étant le maximum de vraisemblance du nombre d’apparition dans une partie de taille quelconque selon une loi d’apparition normale. On considère en quelque sorte que la fréquence relative se comporte comme le mode d'une distribution de probabilité normale (le milieu de la cloche de Gauss, là où c’est le plus élevé et donc le plus probable), soit la moyenne (cf. propriétés de la loi normale : moyenne, écart-type...). Or, il se trouve que la probabilité d’apparition d’une forme graphique - ou de façon plus générale d’une expression CQL - dans une partie n’a aucune raison de se comporter selon une loi normale. C’est-à-dire dont la distribution ressemble à une belle cloche de Gauss, avec une moyenne, un écart-type, etc. C’est ce qu’a fait remarquer Pierre Lafon dans sa thèse (Lafon, 1984), en insistant sur la déformation de la distribution pour les petites fréquences (≪20 par exemple) qui ne ressemble pas du tout à une cloche de Gauss. Il a formalisé cette apparition et constaté qu’elle était plutôt du type hypergéométrique. Cette loi de probabilité est très générale et apparaît sous diverses formes. Mais le plus souvent dans le cas qui nous préoccupe, elle ressemble à une cloche de Gauss dissymétrique vers la droite avec une queue s’affaissant petit à petit vers les hautes fréquences. Et le mode de cette distribution, c’est à dire le maximum de vraisemblance d’apparition que nous cherchons à estimer ne s’obtient pas par une moyenne arithmétique mais plutôt par l’équation 8.25.
Dans TXM, le calcul de la probabilité qu’une forme A apparaisse f fois dans une partie p de longueur t, la forme apparaissant F fois en tout dans l’ensemble du corpus dont la longueur totale est de T occurrences, a été modélisé par Pierre Lafon (Lafon, 1980) et peut s’exprimer formellement par l’équation 8.26 45.
Équation 8.26: Probabilité d'apparition dans une partie.
est le nombre d'échantillons de k éléments parmi n éléments, ou le nombre de parties de k éléments dans un ensemble de n éléments.
Le calcul exact de l'indice de spécificité utilisée dans TXM est celui du calcul de la probabilité du fait que l’événement apparaisse autant de fois qu’on l’observe effectivement dans la partie (soit ) ou plus fréquemment encore à concurrence de la taille de la partie (en suivant la loi hypergéométrique décrite par l’équation 8.26 qui dépend de f, t, F et T). Concrètement, on obtient cette mesure en sommant les valeurs de la probabilité pour chaque fréquence d’apparition possible comme le montre l’équation 8.27 .
Équation 8.27: Indice de spécificité
8.11.2 Calcul direct de l’indice de spécificité
La macro livrée avec TXM « ExecR » permet de calculer l'indice de spécificité pour différentes valeurs de ses paramètres46. En effet, par défaut, le script R exemple qu'elle exécute affiche la courbe de la distribution de probabilité de la spécificité.
Pour utiliser cette macro :
-
ouvrir la vue « Vues / Macro » ;
-
double-cliquer sur la macro « ExecR » :
Illustration 8.28: Paramètres macro de la ExecR exemple
la fenêtre des paramètres s'ouvre (ill. 8.28). Les paramètres par défaut sont ceux de l'exemple du mot « peuple » prononcé dans le discours D9 de Robespierre illustré dans (Lafon, 1980) (voir la Figure 1, pp 140-141) :
-
f la fréquence de la forme dans la partie ;
-
F la fréquence totale de la forme dans le corpus ;
-
t le nombre total d’occurrences de la partie ;
-
T le nombre total d’occurrences du corpus.
-
cliquer ensuite sur « Exécution » pour afficher la courbe de la densité de probabilité avec ces paramètres (ill. 8.29) :
Illustration 8.29: Distribution de probabilité de la spécificité de paramètres 296, 1084 et 61449.
le nombre d'apparitions le plus probable (le mode) est de 5 ;
-
la probabilité d'apparaître exactement 11 fois dans le discours D9 est de 0,01013 % ;
-
la probabilité d'apparaître 11 fois et plus dans le discours D9 (l'indice de spécificité) est de 0,01699 %
Pour reproduire la forme de la distribution correspondant à un cas précis se trouvant dans un tableau de résultats de spécificités, il suffit donc de lancer la macro ExecR avec les paramètres f, F, t et T correspondants à la cellule du tableau.
8.11.3 Présentation des résultats
Dans TXM, la spécificité est représentée par la partie entière des logarithmes en base 10 (log10) des estimations de probabilité de spécificité car, comme le nom hypergéométrique le suggère, les probabilités obtenues par les calculs varient dans un domaine exponentiel et l’ordre de grandeur de la probabilité suffit souvent à la comparer aux autres. On compare donc des ordres de grandeur plutôt que les probabilités elles-mêmes.
Par convention, la représentation de la sous spécificité (ou sous-représentation) se distingue de celle de la sur spécificité (ou sur-représentation) par un signe moins (-) situé devant l'indice. On s’intéressera alors aux faibles probabilités (donc aux valeurs de log10 importantes) qui rendent compte :
-
soit d’un nombre d’apparitions plus faible que prévu si l’observation est inférieure au mode de la distribution théorique (c’est-à-dire si le nombre d’apparitions de l’événement dans la partie est inférieur au maximum de vraisemblance estimé par notre modélisation hypergéométrique de la distribution (cf. l’équation 8.25)). On parlera alors de sous-spécificité ou spécificité négative ;
-
soit d’un nombre d’apparition plus important que prévu si l’observation est supérieure au mode de la distribution théorique. On parlera alors de sur-spécificité ou spécificité positive.
À ne pas confondre avec les fortes probabilités (par exemple supérieures à 5% de chance), donc aux valeurs de log10 faibles, qui indiqueront plutôt la banalité de l’apparition dans la partie (car prévisibles d'après le modèle des spécificités).
Pour les personnes intéressées par la valeur exacte de la probabilité calculée plutôt qu’au classement des événements entre eux par le biais de l'ordre de grandeur de cette probabilité (qui est, notre usage principal des estimations de probabilité), une macro TXM permet non seulement de réaliser directement le calcul de l’indice de spécificité en fonction des paramètres du modèle mais surtout de situer cette valeur dans la courbe de densité de probabilité (voir la section 8.11.2 page 1 « Calcul direct de l’indice de spécificité »).
8.11.4 Spécificités d'une partition
La commande Spécificités appliquée à une partition ouvre la fenêtre de paramètres suivante :
Illustration 8.30: Paramètres des spécificités d'une partition.propriété de mot : propriété qui fera l'objet du calcul.
Les résultats sont présentés sous forme de tableau (voir l'exemple figure 8.31) :
-
lignes : les différentes valeurs de la propriété de mot considérée (par exemple les différentes formes de mots) ;
colonnes :
la première colonne affiche la valeur de la propriété correspondant à la ligne (par exemple la forme « nous ») ;
la deuxième colonne affiche la fréquence totale 'F' de cette valeur dans tout le corpus (par exemple 694 « nous » dans le corpus). Dans le titre de la colonne, 'T' représente le nombre total d'occurrences du corpus (par exemple une taille totale de 100 810 mots) ;
les autres colonnes fonctionnent par paire :
une première colonne affiche la fréquence de la valeur dans la partie (par exemple 6 occurrences de « nous » dans la partie « Allocution radiotélévisée »). Dans le titre de cette colonne, 't' représente la taille de la partie ;
la seconde affiche l'indice de spécificité de la valeur pour la partie (par exemple 21,3 de spécificité pour « nous » dans la partie).
L'illustration 8.31 présente les résultats de la commande Spécificités portant sur la forme graphique de tous les mots de la partition sur le type de discours du corpus DISCOURS. La tableau est trié dans l'ordre décroissant de la colonne d'indice de spécificité de la partie « Allocution radiotélévisée ». On peut y lire que les formes les plus spécifiques du discours de type « Allocution radiotélévisée » sont :
-
« nous » ayant un indice de spécificité de 21,3 pour 241 apparitions dans ce genre sur un total de 694 apparitions dans le corpus ;
-
« notre » ayant un indice de spécificité de 13,6 pour 124 apparitions dans ce genre sur un total de 335 apparitions ;
-
etc.

Illustration 8.31 : Spécificités des mots de la partition sur la propriété de texte (ou variable) appelée « type » du corpus DISCOURS .
8.11.4.1 Tri des résultats
On peut trier le tableau en cliquant sur les entêtes de colonnes. Cliquer une seconde fois inverse l'ordre de tri.
Trier une colonne d'indice de façon décroissante, permet d'accéder rapidement aux mots considérés comme étant les plus sur-utilisés par rapport à l'ensemble du corpus. Les derniers mots de la liste sont considérés comme sous-utilisés et les mots intermédiaires – autour de l'indice 0 – sont considérés comme banals (ni sur- ni sous-représentés).
8.11.4.2 Visualisation graphique des indices de spécificité
Voir aussi la documentation commune à toutes les visualisations dans la section « 8.14 Visualisation graphique des résultats » page 1.
Les indices de spécificité peuvent être visualisés sous forme graphique. On sélectionne dans le tableau de résultats au moyen de la souris47 les lignes pour lesquelles on souhaite une visualisation puis on lance la commande « Calculer le graphique des lignes sélectionnées » via le menu contextuel. Cela produit un graphique comme illustré figure 8.32 :

Illustration 8.32 : Graphique de spécificité des lemmes « je », « nous » et « vous » des trois types de discours dans le corpus DISCOURS.
Dans le graphique :
-
chaque partie est représentée par un ensemble de barres contiguës, classées dans le même ordre que dans le tableau ;
-
chaque propriété de mot (forme graphique du mot dans cet exemple) sera représentée par une barre de la même couleur dans chaque partie ;
-
les couleurs sont légendées dans le coin inférieur droit du graphique ;
-
deux lignes rouges délimitent la bande de banalité autour de l'axe d'indice 0 (les barres qui n'en sortent pas sont à considérer comme banales).
Le graphique est exportable sous forme d'image via le bouton « Export » de la barre d'outils.
8.11.5 Spécificités d'une table lexicale
On peut appliquer le calcul de spécificités sur une table lexicale (issue d'une partition). Dans ce contexte, la propriété de mot à considérer a déjà été choisie et le calcul se lance directement.
8.11.6 Spécificités d'un sous-corpus
La commande Spécificités sur un sous-corpus permet de choisir la propriété de mot sur laquelle seront appliqués les calculs, par le biais d'une fenêtre de paramètres similaire à celle de la commande Lexique, comme on peut le voir sur l'illustration Erreur : source de la référence non trouvée page 1.

Illustration 8.33 : Spécificités des formes graphiques de la partie « Allocution radiotélévisée » du corpus DISCOURS.
Les résultats sont présentés sous forme de tableau (voir l'exemple figure 8.33) :
-
lignes : les différentes valeurs de la propriété de mot considérée (par exemple les différentes formes de mots) ;
colonnes :
la première colonne affiche la valeur de la propriété correspondant à la ligne (par exemple la forme « - ») ;
la deuxième colonne affiche la fréquence totale 'F' de cette valeur dans tout le corpus (par exemple 90 « - » dans le corpus). Dans le titre de la colonne, 'T' représente le nombre total d'occurrences du corpus (par exemple une taille totale de 105 191 mots) ;
la troisième colonne affiche la fréquence de la valeur dans le sous-corpus (par exemple 16 occurrences de « - »). Dans le titre de cette colonne qui mentionne le nom du sous-corpus, 't' représente la taille de la partie ;
la quatrième colonne affiche l'indice de spécificité de la valeur pour la partie (par exemple spécificité de -0,4 pour « - » dans le sous-corpus) ;
la cinquième colonne affiche la fréquence de la valeur dans le complémentaire du sous-corpus (par exemple 74 occurrences de « - »). Dans le titre de cette colonne qui mentionne le « nom du corpus \ le nom du sous-corpus », 't' représente la taille du complémentaire ;
la sixième colonne affiche l'indice de spécificité de la valeur pour le complémentaire (par exemple spécificité de 0,4 pour « - » dans le complémentaire).
45 On peut obtenir cette équation en procédant grossièrement de la manière suivante. Si il y a manières d’obtenir f éléments parmi F et manières de combiner les formes restantes du corpus alors il y a manières d’obtenir f fois la forme A dans un échantillon de t occurrences. Le quotient de ce nombre par le nombre de manières d’obtenir des échantillons différents de t occurrences parmi T (c’est-à-dire ) nous donne la probabilité recherchée.
46 https://groupes.renater.fr/wiki/txm-users/public/macros#execr
47 Shift-clic gauche permet de sélectionner plusieurs lignes contiguës. Ctrl-clic gauche permet de sélectionner plusieurs lignes non contiguës.