7 Analyser un corpus
Les outils d’analyse de TXM sont lancés par le biais de commandes de menu ou de barre d’outils qui s’appliquent à des objets (corpus, sous-corpus, partition…) ou des résultats (index, concordance…) sélectionnés dans la vue Corpus.
L’objet n’a pas besoin d’être sélectionné si l’outil est lancé depuis son menu contextuel (accédé par un clic droit sur l’objet).
Les outils de TXM peuvent également être lancés entre résultats par le biais de liens hypertextuels au sein des fenêtres de résultats.
En général les outils ouvrent une nouvelle fenêtre qui permet de paramétrer, lancer et parcourir le résultat du calcul.
Un calcul peut être interrompu en appuyant sur le bouton « Cancel » de la fenêtre de progression.
7.1 Textes : catalogue
L’outil “Textes” liste tous les textes d’un corpus, ou d’un sous-corpus, avec leurs métadonnées (pour offrir un aperçu du contenu du corpus par les textes plutôt que par les mots) et affiche l’équilibre par métadonnées d’une sélection de ces textes par métadonnées sous forme de diagrammes à barre - par mots ou par textes (pour aider à construire des sous-corpus équilibrés).
Figure 7.1: Catalogue des textes du corpus VOEUX avec sélection des textes de Pompidou et diagramme à barres de l’équilibre entre les années par mots.
7.1.1 Interface
- La liste centrale “Sélection par texte” liste tous les textes du corpus ainsi que leurs métadonnées et permet de sélectionner les textes ligne par ligne
- l’icone de livre ouvre l’édition du texte de la ligne à sa première page, cette page affiche toutes ses métadonnées
- La colonne de gauche “Sélection par métadonnées” permet de sélectionner des textes par des valeurs de leurs métadonnées
- La colonne de droite “Équilibre” affiche l’équilibre du sous-corpus correspondant à la sélection courante sous forme de diagrammes à barres par métadonnées, en mots ou en textes
- par exemple dans l’illustration la sélection par métadonnée
text@loc='2 Pompidou'(les textes du président Pompidou) a sélectionné 5 années parmi 63 pour un total de 3 280 mots
- par exemple dans l’illustration la sélection par métadonnée
7.1.2 Paramètres
- ‘Équilibre en’ permet de régler les statistiques de la sélection courante par ‘Mots’ ou par ‘Textes’
Trier les statistiques par taille- Paramètres supplémentaires
:
Figure 7.2: Paramètres supplémentaires du catalogue des textes du corpus VOEUX.
- ‘Métadonnées’ : permet de choisir les métadonnées à utiliser
- ‘Filtres’ : permettent d’élaguer la liste des textes en amont (utile pour éclaircir les grandes listes avant sélection)
- les filtres sont organisés par comodité selon qu’on souhaite un filtrage positif (ce qu’on souhaite garder) ou un filtrage négatif (ce qu’on ne souhaite pas garder)
- les filtres ‘+’ sélectionnent par expression régulière sur les valeurs de métadonnées des textes ceux qui participeront à la liste affichée
- les filtres ‘-’ sélectionnent par expression régulière sur les valeurs de métadonnées des textes ceux qui ne participeront pas à la liste affichée
- les filtres ‘+’ et ‘-’ sont utilisables de façon complémentaire et optionnelle
- les filtres ‘+’ sont appliqués avant les filtres ‘-’
- Exemple :
- filtre ‘+’
- annee :
198.
- annee :
- filtre ‘-’
- annee :
1983
- annee :
- Glose : liste des textes des années 80 sauf 1983
- filtre ‘+’
7.2 Propriétés : caractéristiques
L’outil Propriétés fournit des informations détaillées sur tous les objets de TXM.
Pour les résultats de calculs, il s’agit :
- des valeurs de paramètres utilisées ;
- de statistiques générales sur les résultats.
Pour les corpus et les partitions il affiche des informations spécifiques.
La figure 7.3 montre un exemple de propriétés de corpus.
Figure 7.3: Onglet ‘Détails’ des propriétés du corpus VOEUX.
7.2.1 Appliqué à un corpus ou à un sous-corpus
Cet outil affiche deux ou trois onglets :
- « Détails » (affiché par défaut) : présente une synthèse complète de la composition du corpus et des statistiques générales
- « Général » : affiche les propriétés techniques, la description et le journal du corpus
- « Documentation » (optionnel) : affiche la documentation du corpus (si elle est présente dans le corpus)
7.2.1.1 Paramètres :
- V max : nombre maximal de valeurs affichées
- par défaut 20 valeurs maximum de propriétés de mots ou de structures sont affichées
- Longueur de ligne maximum : longueur maximum d’une ligne de liste de valeurs (en caractères)
- par défaut les lignes sont tronquées à 200 caractères.
7.2.1.2 Onglet « Détails »
- Statistiques générales
- le nombre total de mots - ou « unités lexicales » ou « tokens »
- tels que calculés à l’import du corpus dans TXM. Les mots ont pu être calculés et pré-encodés par des outils externes en fonction du format source et du module d’import utilisé
- la liste des propriétés de mots et leur nombre (forme graphique - word, frpos, frlemma, etc.)
- frpos, frlemma sont calculés en général à l’import du corpus dans TXM mais comme d’autres propriétés peuvent être calculées par des outils externes en fonction du format source et du module d’import utilisé
- la liste des structures internes aux textes et leur nombre (text, div, p, etc.)
- les structures sont souvent encodées en amont avant l’import dans TXM dans des sources au format XML
- Propriétés de mots
- pour chaque propriété, les premières valeurs prises au fil du corpus
- Propriétés de structures
- pour chaque structure
- pour chaque propriété
- les premières valeurs prises au fil du corpus
- pour chaque propriété
La figure 7.3 montre un exemple de détails des propriétés du corpus VOEUX.
7.2.1.3 Onglet « Général »
Affiche les propriétés techniques du corpus :
- Nom : le nom du corpus
- Chemin : le chemin du corpus dans l’arborescence des résultats de TXM
- Dossier : le chemin du dossier contenant la version interne du corpus
- Date de création : date d’import du corpus
- Date de dernière modification : date de dernière mise à jour du corpus
- Description : champ de description libre du corpus, que l’utilisateur peut éditer (format HTML). Pré-rempli au moment de l’import
- TXM Version : version de TXM ayant fait l’import du corpus
- Journal : liste des différents évenements du cycle de vie du corpus, que l’utilisateur peut éditer (format texte brut)
La figure 7.4 montre un exemple de propriétés techniques du corpus VOEUX.
Figure 7.4: Onglet ‘Général’ des propriétés du corpus VOEUX.
7.2.1.4 Onglet « Documentation »
Affiche la documentation du corpus sous la forme d’une page HTML si elle est présente dans le corpus.
Remarque : Pour ajouter une documentation à un corpus, il suffit de déposer un fichier index.html (et d’éventuels fichiers annexes : pages html annexes pointées par l’index, images, etc.) dans un dossier ‘doc’ du dossier contenant la version interne du corpus (voir le champ “Dossier”).
7.3 Édition : lecture de texte
7.3.1 Accès direct depuis l’icone d’un corpus
La commande Édition affiche la première page de l’édition du premier texte du corpus sélectionné. Le préambule de l’édition, situé en haut de la première page, affiche toutes les métadonnées du texte.
La figure 7.6 présente la première page de l’édition du premier texte du corpus VOEUX:
- dans cet exemple, les métadonnées sont : loc et annee
- loc : nom du locuteur
- annee : l’année au format 0000 des voeux prononcés
- chaque mot peut être survolé avec la souris afin d’afficher ses
propriétés dans une infobulle : pos, func, lemma
- dans cette exemple, la souris est placée sur le mot « je », l’infobulle affiche :
- frpos = « PRO:PER » pronom personel
- frlemma = « je »
- n = position du mot dans le corpus
- w_1DeGaulle1959_14 : identifiant unique du mot dans le corpus
- dans cette exemple, la souris est placée sur le mot « je », l’infobulle affiche :
Figure 7.6: Première page de l’édition du premier texte du corpus VOEUX.
7.3.2 Accès par retour au texte
Une autre façon d’accéder à l’édition se fait par retour au texte depuis une concordance. Double-cliquer sur une ligne de concordance (voir ci-dessous) vous mène directement à la page concernée de l’édition, où le pivot de la ligne de concordance sera mis en évidence par un fond rose . S’il y a d’autres occurrences de la requête dans la même page, elles seront mises en évidence par un fond rose clair .
7.3.3 Barre d’outils inférieure
La barre d’outils inférieure est composée de trois zones :
- zone Navigation dans les pages du texte courant, au milieu
- page suivante «
» ou page
précédente«
» ; - accès direct à une page donnée en saisissant son numéro «
» ; - accès à la fin du texte «
» ou au début du
texte «
» ;
- page suivante «
- zone Navigation dans les textes du corpus, à droite
- texte suivant du corpus «
» ou texte
précédent «
». - accès direct à un texte en saisissant son identifiant «
» ; - accès au dernier texte du corpus «
» ou au premier
texte «
».
- texte suivant du corpus «
- zone Recherche de mots dans le corpus, à gauche : le bouton
[Chercher](loupe) un mot, ou une séquence de mots, avec une expression CQL provoque l’ouverture d’outils de navigation dans les occurrences trouvées dans le corpus (première, précédente, suivante et dernière). La première occurrence trouvée dans la page courante ou suivantes est mise en évidence ;- options de recherche : le bouton
[v]donne accès au choix de la stratégie de résolution CQP
- options de recherche : le bouton
7.4 Navigateur : lecture tabulée
La commande Navigateur permet de naviguer dans les structures d’un corpus en visualisant leurs mots et leurs propriétés CQP sous la forme d’un tableau.
Chaque mot est affiché sur une seule ligne avec :
- dans la première colonne sa forme graphique, en tant que valeur de la propriété
word; - dans les colonnes suivantes les valeurs des propriétés
<lang>poset<lang>lemma(suivant la<lang>ueutilisée pour annoter le corpus à l’import et quand elles sont disponibles). - puis dans les colonnes suivantes les valeurs des autres propriétés
Le tableau est tronqué à un nombre maximum de lignes défini dans la préférence TXM > Utilisateur > Navigateur, dont la valeur par défaut est 1000 lignes.
7.4.1 Paramètres
- Barre de paramètres principale
- Structure : niveau de navigation dans le corpus
- par défaut, les mots sont présentés par paragraphes (structure p, quand elle est présente dans le corpus)
- on peut également naviguer par textes (structure text)
- la barre de navigation située en bas avance et recule dans le niveau de structure courant
- les “Informations de structures” situées à droite de la barre de navigation affichent des propriétés de la structure courante
- Structure : niveau de navigation dans le corpus
- Zone de paramètres escamotable (roue dentée)
- Propriétés : propriétés de mots affichées dans le Navigateur
- les propriétés affichées par défaut sont
word,<lang>poset<lang>lemma - on peut choisir les propriétés de mots affichées comme dans l’Index
- les propriétés affichées par défaut sont
- Propriétés de structures : propriétés de la structure courante affichées à droite de la barre de navigation
- la propriété affichée par défaut est
n - on peut choisir les propriétés de structures affichées comme dans les références de concordances
- la propriété affichée par défaut est
- Éléments par page : nombre de mots de la structure courante affichés
- Propriétés : propriétés de mots affichées dans le Navigateur
7.4.2 Barre d’outils inférieure
La barre d’outils inférieure est composée de deux zones :
- zone Recherche à gauche : le bouton
[Chercher](loupe superposée à un tableau) une chaîne de caractères par expression régulière dans le tableau, provoquant l’ouverture d’outils de navigation dans les occurrences de chaines trouvées dans le tableau- l’unité de recherche est une chaîne de caractères (pas un mot CQP)
- le contexte de recherche est une cellule du tableau (la recherche ne se fait pas à cheval sur des cellules du tableau)
- options de recherche : le bouton
[v]donne accès aux options de recherche :- Match complet : la totalité du contenu de la cellule doit correspondre à l’expression régulière
- Sensible à la casse : la casse des caractères de l’expression régulière (minuscules/majuscules) doit correspondre dans la chaine recherchée
- Littéral : la chaîne recherchée n’est pas une expression régulière (les caractères opérateurs des expressions régulières sont des caractères littéraux au même titre que les autres - qui valent pour eux-mêmes)
- zone Navigation à droite, navigation dans les structures du niveau courant (paragraphes ou textes)
7.5 Lexique et Index
Les listes de mots peuvent être obtenues via deux commandes complémentaires :
Lexique : calcule la liste hiérarchique de toutes les valeurs d’une propriété de mot donnée d’un corpus ou sous-corpus (la fréquence de chaque forme graphique, de chaque lemme, etc.) ;
Index : calcule la liste hiérarchique des combinaisons de valeurs de propriétés correspondant aux occurrences d’une requête CQL cherchée dans un corpus ou un sous-corpus (la fréquence de chaque lemme de substantifs, des formes graphiques des occurrences de la séquence « Adj Subst », etc.).
7.5.1 Lexique
La commande Lexique calcule la liste des fréquences de toutes les valeurs d’une propriété lexicale donnée pour un corpus ou un sous-corpus (par exemple : les formes de mots, les étiquettes morphosyntaxiques, les lemmes, etc). Par défaut, à l’ouverture, la commande calcule le lexique de la propriété lexicale « word » (celui des formes). Le résultat se présente sous forme d’un tableau :
Vous pouvez trier le tableau sur chaque colonne en cliquant sur son entête (tri sur les formes ou tri sur les fréquences). Un clic supplémentaire inverse l’ordre de tri.
Vous pouvez exporter ce tableau au format CSV, voir la section 6.15.1.1 Export des tableaux page 125.
7.5.2 Index
La commande Index calcule la liste de fréquences des valeurs de propriétés des occurrences d’une requête CQL donnée pour un corpus, sous-corpus ou une partition.
7.5.2.1 Choix du jeu de propriétés de mots à lister
Les occurrences sont décomptées en fonction des valeurs des propriétés de mots sélectionnées. Comme pour le lexique, par défaut ce sont les formes graphiques des occurrences de la requête qui sont listées et décomptées (« word »).
TXM permet non seulement de construire la liste à partir des autres propriétés de mots - catégories grammaticales, lemme et de façon générale, toute propriété de mots encodée dans le corpus - mais également de les combiner.
On peut sélectionner le jeu de propriétés à combiner avec le bouton « Éditer »[47] :
Sélectionner dans la liste de gauche les propriétés que l’on souhaite ajouter[48]. Faîtes les basculer grâce aux flèches qui permettent d’ajouter ou de retirer les propriétés :
«
>» : permet d’ajouter une propriété (on peut aussi double-cliquer sur une propriété dans la liste de gauche) ;«
<» : permet de retirer une propriété (on peut également double-cliquer sur une propriété dans la liste de droite) ;«
^» : permet de modifier l’ordre d’une propriété vers le haut (la propriété qui se trouve tout en haut sera celle qui s’affichera en premier) ;«
v» : permet de modifier l’ordre d’une propriété vers le bas.
7.5.2.2 Requêtes
Vous pouvez utiliser les mêmes requêtes CQL que pour les concordances (ainsi que l’assistant de requêtes).
Le résultat se présente sous forme d’un tableau :
7.5.2.3 Index d’une partition
L’Index appliqué à une partition calcule le tableau des fréquences ventilées par parties. Ce tableau peut alors être transformé en une Table lexicale pour être soumis au calcul des Spécificités, AFC ou CAH.
7.5.2.4 Filtrage des résultats
Vous pouvez élaguer les résultats avec les seuils suivants :
Fmin : fréquence minimum à partir de laquelle on ajoute un résultat à la liste ;
Fmax : fréquence maximum ;
Vmax : nombre maximum de résultats à afficher. Par exemple si Vmax = 100, on obtiendra les 100 premières valeurs triées par la fréquence ;
Résultats par page : nombre de résultats par page.
7.5.2.6 Appel de commandes à partir des résultats
La commande index est liée aux commandes Concordance et Progression.
Vous pouvez sélectionner certaines lignes de l’index avec la souris[49], puis par l’intermédiaire du menu contextuel, choisir la commande à exécuter :
« Envoyer vers la concordance » : une requête CQL correspondante sera créée afin de construire la concordance.
« Envoyer vers la cooccurrence » : une requête CQL correspondante sera créée afin de construire une cooccurrence.
« Envoyer vers la progression » : autant de requêtes CQL que de lignes sélectionnées seront créées pour construire une progression.
Vous pouvez exporter ce tableau au format CSV, voir la section 6.15.1.1 Export des tableaux page 125.
7.6 Concordances
Cette commande construit une concordance kwic des occurrences d’une requête CQL dans un corpus ou dans un sous-corpus.
L’affichage prend la forme suivante (voir illustration Illustration page 90) :
toutes les occurrences sont affichées verticalement dans la colonne « Pivot »
chaque occurrence est affichée sur une seule ligne avec les mots qui la précèdent « Contexte gauche » et les mots qui la suivent « Contexte droit » ;
la première colonne du tableau de concordance « Références » permet de situer l’occurrence ;
le contenu de chaque colonne peut être adapté à l ’aide de nombreuses options d’affichage et de tri ;
le tableau de concordance est paginé.
La zone des paramètres est organisée de la façon suivante :
un champ pour saisir la requête CQL ;
un bouton pour accéder à l’historique des requêtes ;
le bouton pour lancer le calcul.
le bouton « Afficher/Masquer les paramètres de commande »: affiche ou cache les paramètres de la concordance pour améliorer le confort de lecture.
7.6.1 Requêtes CQL
Le moteur de recherche vous permet d’exprimer les recherches dans le langage CQL (pour « Corpus Query Language », voir ci-dessous la section 5 « la syntaxe du moteur de recherche »).
TXM utilise une syntaxe simplifiée basée sur le langage CQL, afin d’écrire facilement des requêtes. Par exemple, pour rechercher la mot « je », vous n’avez qu’à écrire « je » dans le champ « Requête ».
Pour des recherches plus complexes, vous pouvez utiliser toute la variété du langage CQL. Par exemple, pour chercher :
le mot « je » suivi d’un verbe
dans le corpus DISCOURS, vous pouvez saisir la requête suivante :
“je” [pos=“V.*”]
Cette requête peut être décomposée ainsi :
“je” désigne le mot « je » ;
[pos=“V.*”] indique que le verbe sera sur la droite du mot « je » :
les crochets […] indiquent qu’il ne doit y avoir qu’une seule unité lexicale à la droite du mot « je » ;
pos=“V.*” indique que l’occurrence doit porter l’étiquette morphosyntaxique « V.* ». Dans le corpus DISCOURS, étiqueté par Cordial et le jeu d’étiquettes Multext, cette requête sélectionne tous les verbes (dans ce corpus, tous les verbes ont une étiquette qui commence par « V »).
7.6.1.1 Assistant de requêtes CQL
Il est possible de construire les requêtes à l’aide d’un assistant. Un clic sur l’icone « Assistant de Requête » ouvre la fenêtre de l’assistant :
La requête est construite en choisissant des propriétés de mot à contraindre et leur valeur dans des « expressions de mot ».
Par exemple :
la propriété « word » (pour la forme graphique) du mot « correspond à » la chaîne saisie dans le dernier champ (par exemple « je ») ;
la propriété « frpos » (pour sa partie du discours) du mot « commençant par » « V » (pour chercher tous les verbes).
L’assistant permet d’exprimer une succession de mots à l’aide du bouton « Mot supplémentaire » qui ouvre une « expression de mot » supplémentaire pour exprimer les contraintes sur le mot suivant à rechercher. Le menu situé entre les expressions de mots permet de préciser si les mots sont adjacents (« suivi de ») ou non.
On peut éventuellement marquer un des mots de la requête pour le mettre en évidence dans les lignes de concordances ou pour focaliser un index (construire l’index à partir des propriétés de ce mot seulement).
Pour limiter le contexte de la recherche, il faut activer le champ « dans un contexte de ». On peut régler la taille du contexte en nombre de mots ou en nombre de structures.
On termine l’assistant avec le bouton « OK », ce qui insère la requête CQL correspondante dans le champ « Requête ».
Pour lancer la recherche, cliquer sur le bouton .
Avant d’afficher les résultats de la concordance, la zone de commentaires ainsi que la ligne de statut vous donneront le nombre total de résultats.
La figure 6.24 montre les résultats :
il y a 206 occurrences ;
les résultats affichés vont du 22ième au 41ième (il s’agit de la deuxième page) ;
la colonne « Pivot » recense les deux mots ciblés par la requête « je » suivi d’un verbe ;
les concordances sont triées par défaut dans l’ordre du texte et du corpus ;
la référence prend ici la forme du nom du locuteur ;
le menu contextuel s’ouvre en cliquant à droite sur une concordance, il permet de :
définir les références : régler les informations affichées dans la colonne référence ;
définir la propriété de tri : définir la propriété de mot utilisée pour l’ordre de tri ;
tri multiple : définir plusieurs clés de tri ;
définir la taille des contextes : choisir le nombre maximum de mots affichés dans les contextes de gauche et de droite ;
lignes par page : définir le nombre de résultats affichés dans une page
définir les propriétés affichées : choisir les propriétés de mots qui seront affichées dans chaque colonne.

La concordance est un tableau que pouvez exporter au format CSV, voir la section 6.15.1.1 Export des tableaux page 125.
7.6.3 Retour au texte
En double-cliquant sur une ligne de la concordance, on retourne à la page de l’édition qui contient le pivot. L’édition est ouverte dans un nouvel éditeur.
Au sein de la page, le pivot est surligné en rouge, tandis que les autres pivots de la concordance se trouvant dans la même page sont surlignés en rouge clair.
Si on re-double-clique sur une ligne de la concordance, le même éditeur est utilisée. Pour une navigation dans l’édition, vous pouvez placer l’éditeur de l’édition à côté de l’éditeur de la concordance.
7.6.4 Tri des concordances
Vous pouvez trier les concordances selon chaque colonne : « Références », « Contexte gauche », « Pivot » et « Contexte droit » en cliquant sur leurs entêtes. Vous pouvez changer l’ordre de classement en cliquant une nouvelle fois sur l’entête. Vous remarquerez qu’alors les clés de tri changent en fonction de l’entête sélectionnée. Le tri par défaut se fait selon le pivot. Toutefois vous avez la possibilité de changer les propriétés de tri en cliquant sur « Options de tri » dans le menu contextuel. Enfin vous pouvez effectuer un tri multiple en changeant chaque clé de tri.
7.6.5 Propriétés de mots et taille de contextes
Chaque colonne contenant une propriété de mot peut être personnalisée soit :
depuis le tableau des réglages de propriétés des paramètres supplémentaires, voir illustration 6.12, organisé horizontalement par colonnes de concordance : la première ligne permet de choisir les propriétés affichées, la deuxième ligne de choisir les propriétés utilisées pour les tris et la troisième de régler la taille des contextes.
depuis la concordance, sélectionner dans le menu contextuel « Options d’affichage ».
7.6.6 Références de concordance
Vous pouvez choisir quelles informations sont affichées dans la colonne « Références ».
Dans le menu contextuel, sélectionner « Options d’affichage des références ». Une fenêtre s’ouvre, comme vous pouvez le constater dans La figure 6.13 :
Toutes les propriétés d’unités de structure et d’unités lexicales se trouvent dans la liste de gauche. Les noms de propriétés contenant le caractère « : » correspondent aux propriétés de structures.
Par exemple, text:loc représente la propriété « loc » de la structure « text », pos représente la propriété « pos » des mots.
Pour choisir une propriété, sélectionnez-là puis cliquez sur le bouton « > » pour la faire glisser dans le champ de droite. La liste qui se formera à droite correspondra à l’affichage dans la colonne référence.
Pour retirer une propriété de l’affichage, sélectionnez-là dans la liste de droite et appuyez sur le bouton « < » afin de la faire re-basculer dans la liste de gauche.
Pour changer l’ordre d’affichage des propriétés dans la référence, on change l’ordre des propriétés dans la liste de droite. Utiliser les boutons monter « ^ » et descendre « v » pour déplacer les propriétés dans la liste.
7.7 Cooccurrences
La commande Cooccurrences calcule le tableau des différents cooccurrents des occurrences d’une requête CQL, trié par défaut par l’indice de spécificité (Lafon, 1980) (un indicateur statistique de présence). Elle permet donc de calculer les cooccurrents d’une forme, d’un lemme, de la succession d’un lemme et d’une catégorie, etc.
L’appel de cette commande ouvre une fenêtre composée d’une zone de paramètres et d’une zone affichant les cooccurrents (Illustration Illustration) :
La zone de paramètres permet de :
Saisir une expression CQL du pivot dans le champ de requête (on peut aussi utiliser l’assistant de requête).
Choisir les propriétés lexicales utilisées pour construire les cooccurrents (forme, lemme, etc.)
Régler les seuils de fréquence, de co-fréquence et d’indice de spécificité pour élaguer les résultats. La co-fréquence est le nombre de rencontres entre le pivot et chaque cooccurrent.
Choisir le type et la taille du contexte de rencontre :
Contexte en structure, si on coche « structure »
Contexte en fenêtre de mots, si on coche « forme »
On peut définir la taille du contexte à gauche et à droite du pivot (attention : en nombre de structures ou en nombre de mots suivant le type de contexte choisi).
On peut ignorer des contextes en décochant « Contexte gauche actif » ou « Contexte droit actif ».
Trier la liste des cooccurrents en cliquant sur l’entête d’une colonne.
Pour lancer le calcul, cliquer sur le bouton
ou appuyer sur « Entrée » après avoir saisi la requête CQL.
La liste des cooccurrents est un tableau que vous pouvez exporter au format CSV, voir la section 6.15.1.1 Export des tableaux page 125.
7.8 Progression
Une progression représente graphiquement l’évolution au fil d’un corpus d’un ou de plusieurs motifs, exprimés par des requêtes CQL. Elle produit un graphique cumulatif ou un graphique de densité et superpose à la demande des positions de structures du corpus. La zone des paramètres principaux permet d’ajouter des requêtes au graphique de progression. La zone des paramètres complémentaires :
On peut d’abord préciser le type de graphique: cumulatif ou en densité
On peut ensuite choisir une unité structurelle dont on veut visualiser les limites dans le graphique. Les limites seront choisies à partir des valeurs d’une des propriétés de la structure : chaque limite de l’unité, correspondant à une valeur de la propriété, sera représentée sur le graphique sous la forme d’une barre verticale.
- On peut filtrer les valeurs de la propriété au moyen d’une expression régulière pour n’afficher une barre de délimitation que pour les valeurs correspondant à cette expression
Enfin, on saisit les requêtes CQL des motifs à visualiser (éventuellement avec l’aide de l’assistant). On peut supprimer une requête avec le bouton « supprimer » (icone de croix)
- On peut charger un ensemble de requêtes (nommées) à partir d’un fichier au format « .properties » : chaque ligne à la forme « nom=requête».
Exemple de fichier « .properties » :
verbes=[frpos=“V.+”]
adverbes=[frpos=“ADV”]
adjectifs=[frpos=“ADJ”]
…
pronoms=[frpos=“PRO”]
Si le mode « densité » est sélectionné, on peut faire varier la fenêtre de densité par un facteur multiplicatif. Par défaut, la taille de la fenêtre, est la distance minimale entre chaque unité de structure (entre chaque texte si la structure sélectionnée est « text »).
Des options d’affichage sont disponibles :
Afficher le graphique en noir & blanc
Répéter ou pas les valeurs de propriétés de structure.
Utiliser des styles de ligne différents
En cliquant sur « OK » on obtient le graphique de progression tel que dans La figure 6.16. Dans ce graphique, les dates sont affichées en début de discours. Les courbes représentent les progressions respectives des mots « France » et « Algérie », à chaque marche, ou point, d’une courbe correspond une occurrence de mot.
Le graphique est exportable sous forme d’image, voir la section 6.15.1.2 Export des graphiques page 126.
7.8.1 Sélection de points dans les courbes de progression
Comme pour les autres graphiques, il est possible de mettre en évidence des points des courbes en utilisant le mécanisme de sélection par la souris :
Clic gauche : sélection du point (dé-sélection des points déjà sélectionnés)
Ctrl-clic gauche (Cmd-clic gauche sous Mac) : ajout du point à la sélection (ou retrait)
Màj-clic gauche : ajout de tous les points entre le point et celui déjà sélectionné à la sélection (ou retrait)
La sélection de point peut être déplacée le long de la courbe avec les touches raccourcis « flèche gauche » et « flèche droite ».
Cette mise en évidence est exportée avec le graphique lorsque l’on exporte la vue depuis la barre d’outils.
7.8.2 Appels hypertextuels depuis les courbes de progression
Il est possible de lancer deux commandes à partir d’une courbe de progression par lien hypertextuel :
double clic gauche sur un point : ouvre la concordance des occurrences (points) de la progression et la positionne sur la ligne correspondant au point cliqué. Le déplacement de la sélection de point dans la courbe est synchronisé avec l’affichage de la ligne correspondante dans la concordance. Cet outil permet de lire rapidement les contextes d’emploi des occurrences correspondant à certains points d’une progression, par exemple au début où la la fin de changements de rythme dans une courbe ou dans des zones de forte densité (pente forte dans la visualisation cumulative) ;
- il est possible d’ouvrir par lien hypertextuel plusieurs concordances simultanément depuis des courbes pour pouvoir comparer leur contexte en même temps ;
Ctrl-double clic gauche (Cmd-double clic gauche sous Mac) : lance le retour au texte de l’occurrence correspondant au point cliqué. L’édition est positionnée sur l’occurrence sélectionnée, qui est mise en évidence. Le déplacement de la sélection de point dans la courbe est synchronisé avec la mise en évidence dans l’édition. Cet outil permet de lire rapidement les contextes d’emploi les plus larges des occurrences correspondant à certains points d’une progression.
7.9 Références
La commande Références affiche la liste toutes les références des valeurs retournées par une requête CQL à partir des informations des unités structurelles les contenant.
A côté de chaque référence, on trouve, entre parenthèses, la fréquence de la référence. C’est à dire le nombre de fois qu’un pivot à cette référence. Les références peuvent être triées par fréquence ou alphabétiquement.
Si la requête CQL correspond à une succession d’unités lexicales, c’est alors la première unité qui est prise en compte.
Utilisation :
On doit saisir une requête CQL dans le champ requête
On choisit la propriété d’affichage des occurrences, et ainsi la façon de les regrouper
On peut choisir les propriétés de structures à utiliser. Tout comme la commande concordance, il s’agit d’un patron.
Enfin, on lance le calcul à l’aide du bouton ,
7.10 Sous-corpus
Cette commande construit un sous-corpus du corpus sélectionné. Le sous-corpus est représenté comme un descendant du corpus dans la vue « Corpus ».
Cette commande ouvre une boîte de dialogue de nom « Créer un sous-corpus ». Elle est composée de trois onglets : ils permettent de construire des sous-corpus en mode simple, en mode assisté ou en mode avancé.
7.10.1 Construire un sous-corpus : mode « simple »
La figure 6.18 affiche la boîte de dialogue du mode simple de la commande « Construire un sous-corpus ».
Ici, on doit :
OPTIONNEL : entrer le nom du nouveau corpus : il sera affiché dans la vue « corpus »
sélectionner une unité structurelle
sélectionner la propriété de cette unité.
sélectionner une ou plusieurs valeurs
Le nouveau corpus contiendra toutes les unités lexicales se trouvant dans les unités structurelles ainsi désignées.
7.10.2 Construire un sous-corpus : mode « assisté »
La figure 6.19 présente le formulaire de création de sous-corpus en mode « assisté ». qui permet de formuler la requête de création de sous-corpus à partir de différentes propriétés d’une structure
Dans cette fenêtre, on doit :
OPTIONNEL : Saisir le nom du sous-corpus
Cocher « tous les critères » pour indiquer que tous les critères de recherche saisis doivent être vérifiés pour qu’un élément soit sélectionné pour le sous-corpus (ou dit autrement : les critères sont combinés avec un ET booléen) ;
Ou bien cocher « certains critères » pour indiquer qu’un seul critère suffit pour sélectionner un élément pour le sous-corpus (ou dit autrement : les critères sont combinés avec un OU non exclusif).
Sélectionner la structure du sous-corpus à utiliser
Saisir des critères de sélection :
ajouter un critère avec le bouton « + »
supprimer un critère avec le bouton « - »
choisir la propriété utilisée par le critère :
- qui contient ou qui ne contient pas, ou est égal ou différent, des valeurs sélectionnées
Rafraîchir la requête de création du sous-corpus
Affiner si besoin la requête en l’éditant directement dans le champ : par exemple si l’on a besoin de combiner différents opérateurs, typiquement un OU (”|“) entre des valeurs différentes pour une même propriété, et un ET (”&“) entre les critères portant sur différentes propriétés (bien penser alors à utiliser des parenthèses pour expliciter dans quel ordre s’appliquent les conditions).
Cliquer sur « OK » pour créer le sous-corpus
7.10.3 Construire un sous-corpus : mode « avancé »
La figure 6.20 présente la boîte de dialogue du mode avancé[50] qui permet à une utilisateur expert de construire des sous-corpus à l’aide du langage de requête CQL.
Ici on doit :
OPTIONNEL : entrer le nom du nouveau corpus qui apparaîtra dans la vue corpus
écrire une requête CQL qui sélectionnera les unités lexicales du nouveau sous-corpus
Le sous-corpus contiendra toutes les unités lexicales sélectionnées par la requête.
7.11 Partition
Cette commande construit une partition du corpus sélectionné. La nouvelle partition apparaît comme un descendant dans la vue « Corpus ».
Cette commande ouvre une boîte de dialogue intitulée « Créer une partition ». Elle est composée de trois onglets : mode simple, assisté et avancé.
7.11.1 Construire une partition : mode « simple »
La figure 6.21 montre la fenêtre du mode simple.
Ici on doit :
OPTIONNEL : entrer le nom de la nouvelle partition qui apparaîtra dans la vue « corpus »
sélectionner une unité structurelle
sélectionner la propriété de l’unité structurelle sélectionnée.
Les parties de la nouvelle partition seront construites, en tant que sous-corpus, en fonction des différentes valeurs de l’unité structurelle sélectionnée. On ne peut pas accéder aux parties individuellement mais elles sont accessibles via l’objet partition et les commandes qui permettent de mettre ces parties en contraste : Spécificités et AFC.
7.11.2 Construire une partition : mode « assisté »
Le mode assisté permet de définir plus finement les parties de la partition en offrant la possibilité de sélectionner les différentes valeurs de la propriété de structure à utiliser pour composer chaque partie.
La figure 6.22 présente la fenêtre de création de partition en mode assisté.
Ici, il faut :
OPTIONNEL : entrer le nom de la partition qui apparaîtra dans la vue « corpus »
sélectionner une unité de structure, ainsi qu’une de ses propriétés
sélectionner les valeurs qui constitueront une partie de la partition
cliquer sur « nouvelle partie » pour créer une partie supplémentaire
entrer le titre de la partie dans le champ correspondant
cliquer sur « affecter » afin de basculer les valeurs précédemment sélectionnées dans cette partie
on peut cliquer sur « supprimer » afin d’enlever certaines valeurs à cette partie
on peut cliquer sur la croix pour supprimer la partie
on peut cliquer sur « Supp. toutes les parties » afin de supprimer en une seule fois toutes les parties d’un coup
cliquer sur « OK » crée la partition ainsi paramétrée.
7.11.3 Construire une partition : mode « avancé »
La figure 6.23 présente la fenêtre de création de partition en mode avancé[51].
Ici on doit :
OPTIONNEL : entrer le nom du nouveau corpus qui apparaîtra dans la vue « corpus »
écrire autant de requêtes CQL qui sélectionnent chacune les unités lexicales qui composent chaque partie
utiliser le bouton ‘+’ pour ajouter une nouvelle partie et saisir la requête correspondante
utiliser le bouton ‘-’ pour supprimer une partie
La nouvelle partition sera composée de toutes les parties définies, chacune contenant les unités lexicales sélectionnées par la requête correspondante.
Attention, la bonne couverture du corpus total par l’union des différentes parties est de la responsabilité de l’utilisateur.
Les parties de partitions avancées sont nommable en cliquant sur leur nom.
7.12 Table lexicale
Une table lexicale réunit dans un tableau les fréquences des différentes unités lexicales d’une partition ou d’un index de partition. Elle permet de construire toutes les variantes nécessaires du « tableau lexical entier » (TLE) de la textométrie.
Ses colonnes forment les représentations vectorielles des parties de la partition associée qui sont manipulées par les outils AFC et CAH.
7.12.1 Construction à partir d’une partition
Construite à partir d’une partition, il faut d’abord choisir la propriété de mot à partir de laquelle les fréquences seront construites, à l’aide du paramètre « Propriété » de la barre d’outils.
7.12.2 Construction à partir d’un index de partition
À partir d’un index de partition, les unités et les fréquences sont prises directement dans l’index.
7.12.3 Construction indirecte à partir des outils AFC, CAH et Spécificités
Une table lexicale est créée automatiquement par les commandes AFC, CAH et Spécificités quand elles sont appelées directement sur une partition. La propriété de mot à partir de laquelle les fréquences sont construites est précisé par leur paramètre « Propriété » .
Cette table lexicale est masquée dans la vue Corpus par défaut.
7.12.4 Construction à partir d’un fichier de tableur externe
On peut créer une table lexicale en important son contenu directement depuis un fichier, avec l’outil Fichier > Importer > Table lexicale
Dans ce cas les colonnes et les lignes sont construits à partir du contenu du tableau indépendamment d’une partition du corpus recevant la table lexicale.
7.12.5 Édition d’une table lexicale
Une table lexicale est éditable : - les lignes et les colonnes peuvent être fusionnées ou supprimées ; - il est possible de filtrer certaines lignes en fonction de leur fréquence ; - la taille du tableau peut également être limitée à un certain nombre de lignes.

Dans la figure ci-dessus on peut voir la table lexicale formée à partir de la partition Date du corpus DISCOURS. Il est possible de :
- Régler le nombre de ligne ainsi que la fréquence minimum. Il faut valider le choix en cliquant sur le bouton « Garder »
- Fusionner ou supprimer des colonnes : en cliquant sur le bouton
« Fusion ou Suppr. de colonnes ». Ceci ouvre une boîte de dialogue :
- dans cette fenêtre on commence par sélectionner dans la liste de gauche la ou les colonnes à manipuler : soit en sélectionnant directement les noms avec la souris, soit via le champ de recherche situé en haut à gauche (qui sélectionne les noms après avoir saisi une expression régulière et cliqué sur le bouton « chercher » - loupe).
- puis on bascule les noms sélectionnés dans la liste de droite (des colonnes qui seront manipulées) avec le bouton « > »
- le bouton « < » sert à re-basculer des noms de colonnes dans la liste de gauche
- on coche ensuite « fusionner » ou « supprimer » en fonction de l’opération souhaitée. Dans le cas d’une fusion, il faut préciser le nom de la nouvelle colonne résultat ;
- Enfin, on clique sur « OK » pour procéder à l’opération.
- Fusionner ou supprimer des lignes : en cliquant sur le bouton « Fusion ou Suppr. de lignes » : une fenêtre similaire à celle des colonnes permet d’éditer les lignes du tableau.
- On peut trier les colonnes en cliquant sur leurs en-têtes ;
- Enfin, il est possible d’exporter la table obtenue par le biais du menu contextuel.
7.12.6 Sauvegarde d’une table lexicale
Les modifications de tables lexicales sont perdues quand vous quittez TXM. Si vous souhaitez conserver une table lexicale pour la réutiliser au-delà de la session de travail courante, le principe est de la conserver dans un fichier en l’exportant, puis de la récupérer dans une nouvelle session de TXM en l’important depuis ce fichier.
7.12.6.1 Exporter une table lexicale
Utiliser la commande Exporter > Données.... Le fichier créé est au
format Libre Office Calc (.ods) ou bien CSV (.csv). Les caractéristiques du CSV,
comme le caractère séparateur de colonnes, etc., peuvent être réglées
dans la page de préférences « TXM > Utilisateur > Export ». Il faut
pas la suite veiller à ne pas modifier le format du fichier pour pouvoir
réimporter la table dans TXM.
7.12.6.2 Re-importer une table lexicale
Commencer par créer une table lexicale quelconque dans le corpus de
travail. Puis lancer l’outil Importer > Données.... Indiquer alors le fichier contenant la table que vous
aviez exportée : celle-ci va remplacer le contenu de la table
courante.
Remarque : les nouvelles modifications que vous effectuez dans la table
avec TXM ne sont pas enregistrées dans le fichier depuis lequel vous
avez importé la table. Si vous souhaitez enregistrer les modifications
faites lors de la session il vous faut faire un nouvel export de la
table.
7.13 Spécificités
La commande Spécificités calcule un indice rendant compte de l’étonnement que l’on peut avoir du nombre si important (ou si faible) d’occurrences d’un mot ou d’une requête CQL dans une colonne de table table lexicale, une partie de partition ou, de façon générale, dans un sous-corpus par rapport au corpus entier, étant donnés les quatre paramètres suivants :
f : le nombre d’occurrences dans le sous-corpus ;
F : le nombre d’occurrences dans le corpus entier ;
t : le nombre de mots du sous-corpus ;
T : le nombre de mots du corpus entier.
7.13.1 Indice de spécificité
Afin de calculer la probabilité d’apparition d’un événement textuel dans une partie d’un corpus plutôt qu’une autre, un événement étant défini comme l’apparition d’un mot ou d’une expression CQL quelconque, on peut progressivement estimer le nombre d’apparitions le plus vraisemblable de la manière suivante :
le décompte des occurrences de l’expression CQL (ou d’une forme graphique simple) dans chaque partie, soit la fréquence, permet de se faire une première idée contrastive entre les parties.
diviser cette fréquence par le nombre total d’occurrences se trouvant dans la partie considérée (ou dira aussi la taille de la partie) permet d’utiliser les « fréquences relatives ». On a alors « normalisé » la fréquence ou encore on l’a pondérée indépendamment de la taille de chaque partie. Ce qui permet de comparer plus sereinement les fréquences entre elles.
on peut faire plus précis que cela encore : c’est l’objet du calcul de la mesure de spécificité d’une apparition dans une partie mise en œuvre dans TXM. En effet, normaliser en divisant par la taille de la partie nous fait considérer implicitement (ou non) que les fréquences relatives sont représentatives des fréquences d’origine (avant la division par la taille). Pour ce faire, en se trompant le moins possible en dehors de toute information complémentaire, on peut considérer la fréquence relative comme étant le maximum de vraisemblance du nombre d’apparition dans une partie de taille quelconque selon une loi d’apparition normale. On considère en quelque sorte que la fréquence relative se comporte comme le mode d’une distribution de probabilité normale (le milieu de la cloche de Gauss, là où c’est le plus élevé et donc le plus probable), soit la moyenne (cf. propriétés de la loi normale : moyenne, écart-type…). Or, il se trouve que la probabilité d’apparition d’une forme graphique - ou de façon plus générale d’une expression CQL - dans une partie n’a aucune raison de se comporter selon une loi normale. C’est-à-dire dont la distribution ressemble à une belle cloche de Gauss, avec une moyenne, un écart-type, etc. C’est ce qu’a fait remarquer Pierre Lafon dans sa thèse (Lafon, 1984), en insistant sur la déformation de la distribution pour les petites fréquences (≪20 par exemple) qui ne ressemble pas du tout à une cloche de Gauss. Il a formalisé cette apparition et constaté qu’elle était plutôt du type hypergéométrique. Cette loi de probabilité est très générale et apparaît sous diverses formes. Mais le plus souvent dans le cas qui nous préoccupe, elle ressemble à une cloche de Gauss dissymétrique vers la droite avec une queue s’affaissant petit à petit vers les hautes fréquences. Et le mode de cette distribution, c’est à dire le maximum de vraisemblance d’apparition que nous cherchons à estimer ne s’obtient pas par une moyenne arithmétique mais plutôt par l’équation 6.26.
Dans TXM, le calcul de la probabilité qu’une forme A apparaisse f fois dans une partie p de longueur t, la forme apparaissant F fois en tout dans l’ensemble du corpus dont la longueur totale est de T occurrences, a été modélisé par Pierre Lafon (Lafon, 1980) et peut s’exprimer formellement par l’équation 6.27 [52].
Le calcul exact de l’indice de spécificité utilisée dans TXM est celui du calcul de la probabilité du fait que l’événement apparaisse autant de fois qu’on l’observe effectivement dans la partie (soit \(f_{\text{obs}}\)) ou plus fréquemment encore à concurrence de la taille de la partie (en suivant la loi hypergéométrique décrite par l’équation 6.27 qui dépend de f, t, F et T). Concrètement, on obtient cette mesure en sommant les valeurs de la probabilité \(\text{Prob}_{spécif}\) pour chaque fréquence d’apparition possible comme le montre l’équation 6.28 .
7.13.2 Présentation des résultats
Dans TXM, la spécificité est représentée par la partie entière des logarithmes en base 10 (log10) des estimations de probabilité de spécificité car, comme le nom hypergéométrique le suggère, les probabilités obtenues par les calculs varient dans un domaine exponentiel et l’ordre de grandeur de la probabilité suffit en général à la comparer aux autres. On compare donc des ordres de grandeur plutôt que les probabilités elles-mêmes.
Par convention, la représentation de la sous spécificité (ou sous-représentation) se distingue de celle de la sur spécificité (ou sur-représentation) par un signe moins (-) situé devant l’indice. On s’intéressera alors aux probabilités faibles, donc aux valeurs de log10 et d’indice importantes, qui rendent compte :
soit d’un nombre d’apparitions plus faible que prévu (avec un préfixe « - ») si l’observation est inférieure au mode de la distribution théorique (c’est-à-dire si le nombre d’apparitions de l’événement dans la partie est inférieur au maximum de vraisemblance estimé par notre modélisation hypergéométrique de la distribution (cf. l’équation 6.26). On parlera alors de sous-spécificité ou spécificité négative ;
soit d’un nombre d’apparition plus important que prévu (sans préfixe « - ») si l’observation est supérieure au mode de la distribution théorique. On parlera alors de sur-spécificité ou spécificité positive.
Ces grandes valeurs d’indice (positives ou négatives) s’opposent aux fortes probabilités (par exemple supérieures à 5% de chance), donc aux valeurs de log10 faibles, qui indiqueront plutôt la banalité de l’apparition dans la partie (car prévisibles d’après le modèle des spécificités).
Pour les personnes intéressées par la valeur exacte de la probabilité calculée plutôt qu’au classement des événements entre eux par le biais de l’ordre de grandeur de cette probabilité (qui est, notre usage principal des estimations de probabilité), la macro PlotSpecif présentée à la section suivante permet non seulement de réaliser directement le calcul de l’indice de spécificité en fonction des paramètres du modèle mais surtout de situer cette valeur dans la courbe de densité de probabilité.
7.13.3 Calcul direct et visualisation de l’indice de spécificité
La macro « PlotSpecif » permet de visualiser la courbe de la densité de probabilité de spécificité pour des valeurs de paramètres F, t et T choisis par l’utilisateur, et la position par rapport à la courbe de la fréquence observée (f).
Pour utiliser cette macro :
ouvrir la vue « Vues / Macro » ;
dans la vue, ouvrir la section « r » ;
double-cliquer sur la macro « PlotSpecif » pour la lancer :
la fenêtre de saisie des paramètres s’ouvre (ill. 6.29). Les paramètres par défaut sont ceux de l’exemple du mot « peuple » prononcé dans le discours D9 de Robespierre illustré dans (Lafon,
- (voir la Figure 1, pp 140-141) :
f la fréquence de la forme dans la partie ;
F la fréquence totale de la forme dans le corpus ;
t le nombre total d’occurrences de la partie ;
T le nombre total d’occurrences du corpus.
cliquer ensuite sur « Exécution » pour afficher la courbe de la densité de probabilité pour ces paramètres (ill. 6.30) :
avec les paramètres par défaut, le nombre d’apparitions le plus probable (le mode) est de 5 ;
la probabilité d’apparaître exactement 11 fois dans le discours D9 est de 0,01013 % ;
la probabilité d’apparaître 11 fois et plus dans le discours D9 (pour le calcul de l’indice de spécificité) est de 0,01699 %
Pour reproduire la forme de la distribution correspondant à un cas précis se trouvant dans un tableau de résultats de spécificités, il suffit donc de lancer la macro PlotSpecif avec les paramètres f, F, t et T observés dans le tableau.
7.13.4 Application du calcul des spécificités
Les spécificités peuvent s’appliquer à :
une partition ;
une table lexicale ;
ou un sous-corpus.
7.13.4.1 Spécificités d’une partition
La commande Spécificités appliquée à une partition ouvre le fenêtre de résultat suivante :
dans laquelle on commence par sélectionner la propriété de mot qui fait l’objet du calcul (champ « Propriété »).
Après le lancement du calcul avec le bouton
,
les résultats sont présentés sous forme d’un tableau (voir l’exemple
figure 6.32) :
lignes : les différentes « unités » ou valeurs de la propriété de mot considérée (par exemple les différentes formes de mots pour la propriété « word ») ;
colonnes :
la première colonne contient les différentes valeurs de la propriété (par exemple la forme « nous ») ;
la deuxième colonne contient la fréquence totale ‘F’ de cette valeur dans tout le corpus (par exemple 694 « nous » dans le corpus). Dans le titre de la colonne, ‘T’ représente le nombre total d’occurrences du corpus (par exemple une taille totale de 100 810 mots) ;
les autres colonnes fonctionnent par paire :
une première colonne contient la fréquence de la valeur dans la partie (par exemple 6 occurrences de « nous » dans la partie « Allocution radiotélévisée »). Dans le titre de cette colonne, ‘t’ représente la taille de la partie ;
la seconde contient l’indice de spécificité de la valeur pour la partie (par exemple 21,3 de spécificité pour « nous » dans la partie).
La figure 6.32 présente les résultats de la commande Spécificités portant sur la forme graphique de tous les mots de la partition sur le type de discours du corpus DISCOURS. La tableau est trié dans l’ordre décroissant de la colonne d’indice de spécificité de la partie « Allocution radiotélévisée ». On peut y lire que les formes les plus spécifiques du discours de type « Allocution radiotélévisée » sont :
« nous » ayant un indice de spécificité de 21,3 pour 241 apparitions dans ce genre sur un total de 694 apparitions dans le corpus ;
« notre » ayant un indice de spécificité de 13,6 pour 124 apparitions dans ce genre sur un total de 335 apparitions ;
etc.

Vous pouvez exporter ce tableau au format CSV, voir la section 6.15.1.1 Export des tableaux page 125.
7.13.4.1.1 Tri des résultats
On trie le tableau selon les différentes colonnes pour les interpréter en cliquant sur leur entête. Cliquer une seconde fois inverse l’ordre de tri.
Trier une colonne d’indice de façon décroissante, permet d’accéder rapidement aux mots plus présents que prévu par rapport à l’ensemble du corpus. Les derniers mots de la liste sont moins présents que prévu et les mots intermédiaires – autour de l’indice 0 – sont considérés comme banals (on n’est pas étonné de leur fréquence dans la partie).
7.13.4.1.2 Visualisation graphique des indices de spécificité
Les indices de spécificité peuvent être visualisés sous forme graphique. On sélectionne dans le tableau au moyen de la souris[53] les lignes pour lesquelles on souhaite une visualisation puis on lance la commande « Calculer le diagramme en bâtons des lignes sélectionnées » via le menu contextuel. Cela produit un graphique comme illustré ci-dessous :
Dans le graphique :
chaque partie est représentée par un groupe de barres multicolores contiguës, placées dans le même ordre que dans le tableau ;
la spécificité de chaque valeur de propriété de mot (lemme du mot dans cet exemple) sera représentée par une barre de la même couleur dans chaque partie ;
les couleurs sont légendées dans le coin inférieur droit du graphique ;
deux lignes rouges horizontales délimitent la bande de banalité autour de l’axe d’indice 0 (les barres qui n’en sortent pas sont considérées comme banales).
La position de la bande de banalité est modifiable dans la zone des paramètres étendus de la commande.
Le graphique est exportable sous forme d’image, voir la section 6.15.1.2 Export des graphiques page 126.
7.13.4.2 Spécificités d’une table lexicale
On peut appliquer le calcul des spécificités à une table lexicale.
Issue d’une partition, la table lexicale permet d’affiner le tableau de données avant le calcul des spécificités, typiquement par fusion ou suppression de lignes.
Dans ce contexte, la propriété de mot à considérer a déjà été choisie et le calcul des spécificités se lance directement.
Les résultats se présentent comme pour les spécificités d’une partition.
7.13.4.3 Spécificités d’un sous-corpus
On peut appliquer le calcul des spécificités à un sous-corpus, comme si on limitait le calcul à une seule partie d’une partition.
La commande Spécificités sur un sous-corpus permet de choisir la propriété de mot sur laquelle seront appliqués les calculs, puis de lancer le calcul :

Les résultats sont présentés sous forme de tableau
lignes : les différentes valeurs de la propriété de mot considérée (par exemple les différentes formes de mots) ;
colonnes :
groupe principal :
la première colonne affiche la valeur de la propriété correspondant à la ligne (par exemple la forme « nous ») ;
la deuxième colonne affiche la fréquence totale ‘F’ de cette valeur dans tout le corpus (par exemple 694 « nous » dans le corpus). Dans le titre de la colonne, ‘T’ représente le nombre total d’occurrences du corpus (par exemple une taille totale de 69 346 mots) ;
groupe du complémentaire du sous-corpus :
la troisième colonne affiche la fréquence de la valeur dans le complémentaire du sous-corpus (par exemple 453 occurrences de « nous »). Dans le titre de cette colonne qui mentionne le « nom du corpus - le nom du sous-corpus », ‘t’ représente la taille du complémentaire ;
la quatrième colonne affiche l’indice de spécificité de la valeur pour le complémentaire (par exemple spécificité de
- 22 pour « nous » dans le complémentaire);
groupe du sous-corpus :
la cinquième colonne affiche la fréquence de la valeur dans le sous-corpus (par exemple 241 occurrences de « nous »). Dans le titre de cette colonne qui mentionne le nom du sous-corpus, ‘t’ représente la taille de la partie ;
la sixième colonne affiche l’indice de spécificité de la valeur pour la partie (par exemple spécificité de 22 pour « nous » dans le sous-corpus) .
7.14 Analyse Factorielle des Correspondances (AFC)
L’outil AFC
calcule l’analyse factorielle
des correspondances (Benzécri, 1979b) d’une table lexicale ou d’une
partition.
Quand l’AFC est appliquée à une partition, une table lexicale est calculée à la volée à partir des mots simples puis l’AFC est appliquée à cette table lexicale. Celle-ci est masquée par défaut dans la vue Corpus. Pour la visualiser il on peut lancer la commande “Afficher les parents cachés” du menu contextuel de l’icone de l’AFC dans la vue Corpus.
Dans la table lexicale calculée à la volée, les colonnes correspondent aux parties de la partition et contiennent le vecteur colonne des fréquences des valeurs de la propriété de mot choisie. Chaque ligne contient la fréquence au sein de chaque partie d’une des valeurs de la propriété de mot choisie.
La façon la plus complète d’utiliser cet outil est de l’appliquer à une table lexicale construite à partir d’un index de partition. En effet, l’index de partition permet de s’appuyer en amont sur le potentiel de construction d’observables offert par les requêtes du moteur d’extraction CQP et par la projection sur des propriétés de mot quelconques.
Ce qui permet, par exemple, d’appliquer l’AFC à des tables lexicales composées de :
- lemmes de substantifs (pour orienter le contraste vers des analyses thématiques)
- lemmes d’embrayeurs (pour orienter l’analyse vers des situations de communication - qui parle, à qui, où, quand)
- de formes de ponctuations (pour orienter le contraste vers des analyses stylistiques ou typographiques)
- des formes graphiques sélectionnées quand on ne dispose pas de l’extension TreeTagger
- etc.
Cette commande doit être appliquée à une partition constituée d’au moins trois parties ou à une table lexicale constituée d’au moins trois colonnes.
7.14.1 Représentation vectorielle des données d’entrée
L’analyse factorielle des correspondances utilise la table lexicale comme un tableau de contingence où chaque colonne est représentée par un vecteur composé des fréquences des lignes et symétriquement où chaque ligne est représentée par un vecteur des fréquences des colonnes.
Voici des exemples de représentations vectorielles dans le cas d’une table lexicale croisant les présidents du corpus VOEUX avec les lemmes de pronoms personnels utilisés (sous-ensemble de la table lexicale complète) :
| 1 De Gaulle | 2 Pompidou | 3 Giscard | 4 Mitterrand | 5 Chirac | 6 Sarkozy | 7 Hollande | 8 Macron | |
|---|---|---|---|---|---|---|---|---|
| nous | 205 | 55 | 76 | 151 | 234 | 93 | 97 | 254 |
| je | 41 | 39 | 91 | 159 | 143 | 114 | 131 | 170 |
| vous | 18 | 38 | 111 | 97 | 97 | 60 | 59 | 92 |
| il | 105 | 30 | 42 | 108 | 95 | 32 | 56 | 89 |
| elle | 69 | 6 | 42 | 58 | 79 | 29 | 66 | 27 |
| on | 22 | 1 | 14 | 65 | 15 | 3 | 6 | 15 |
| tu | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 |
Table lexicale VOEUX@loc,[frpos = PRO:PER]/frlemma
- la colonne “1 De Gaulle” est représentée par le vecteur \(\begin{pmatrix} 205 \\ 41 \\ 105 \\ 18 \\ 69 \\ 22 \\ 0 \end{pmatrix}\) dans l’espace à 7 dimensions défini par les axes “nous”, “je”, “il”, “vous”, “elle”, “on” et “tu”
- ou dit autrement, la colonne “1 De Gaulle” :
- se trouve à la coordonnée 205 le long de l’axe “nous”
- se trouve à la coordonnée 41 le long de l’axe “je”
- etc.
- ou dit autrement, la colonne “1 De Gaulle” :
- la colonne “2 Pompidou” est représentée par le vecteur \(\begin{pmatrix} 55 \\ 39 \\ 30 \\ 38 \\ 6 \\ 1 \\ 0 \end{pmatrix}\) dans le même espace
- la ligne “nous” est représentée par le vecteur \(\begin{pmatrix} 205 \\ 55 \\ 76 \\ 151 \end{pmatrix}\) dans l’espace à 4 dimensions défini par les axes “1 De Gaulle”, “2 Pompidou”, “3 Giscard”, etc.
- la ligne “je” est représentée par le vecteur \(\begin{pmatrix} 41 \\ 39 \\ 91 \\ 159 \end{pmatrix}\) dans le même espace
- etc.
Les colonnes sont donc représentées dans un espace vectoriel dont la dimension correspond au nombre L de lignes. Chaque fréquence est utilisée comme une coordonnée le long de l’axe correspondant à sa ligne.
Et les lignes sont représentées dans un espace vectoriel dont la dimension correspond au nombre C de colonnes. Chaque fréquence est utilisée comme une coordonnée le long de l’axe correspondant à sa colonne.
7.14.2 Objectifs du calcul
Le but du calcul est de réduire la dimensionnalité de ces vecteurs. Comme en général les tables lexicales de TXM contiennent des centaines de lignes (L) et des dizaines de colonnes (C), la dimension finale du calcul correspondra plutôt à celui du nombre de colonnes diminué de un (C-1).
Du point de vue des colonnes, le calcul transforme donc chaque vecteur colonne de L coordonnées en un nouveau vecteur de C-1 coordonnées dans un nouvel espace vectoriel des facteurs « synthétisant » les L dimensions d’origine.
Du point de vue des lignes, le calcul transforme chaque vecteur ligne de C coordonnées en un nouveau vecteur de C-1 coordonnées dans le nouvel espace vectoriel « synthétisant » les C dimensions d’origine.
L’objectif de l’outil est ensuite de vous aider à visualiser les vecteurs colonnes et les vecteurs lignes dans le nouvel espace vectoriel réduit, sachant que les dimensions correspondant aux facteurs de plus grande valeur propre sont à explorer en premier car ils rendent compte de plus d’information des dimensions d’origine que les autres.
7.14.3 Visualisation dans les plans factoriels
Le choix de TXM est de se concentrer sur la visualisation dans le plan (en 2 dimensions).
La visualisation dans le plan correspond à l’utilisation d’une représentation graphique bi-dimensionnelle pour comparer les vecteurs colonnes et les vecteurs lignes entre eux sous la forme de points affichés dans un plan.
L’intérêt de cette représentation est qu’elle permet de comparer les vecteurs entre eux en interprétant leur position dans le plan plutôt qu’en interprétant leurs coordonnées numériques.
On appelle les points affichés les point-colonnes resp. les point-lignes selon qu’ils représentent des vecteurs colonnes resp. des vecteurs lignes.
Dans cette visualisation on ne peut visualiser que deux coordonnées (ou dimensions) à la fois.
Voici un exemple de visualisation des vecteurs colonnes des présidents de la table précédente dans l’espace d’origine (celui des fréquences du corpus) limité aux deux premières dimensions ‘nous’ et ‘je’.
Dans ce graphique, chaque point-colonne est positionné :
- horizontalement à partir de la coordonnée selon l’axe (ou dimension) ‘nous’ ;
- verticalement à partir de la coordonnée selon l’axe (ou dimension) ‘je’ ;
Figure 7.7: Point-colonnes des présidents de la partie VOEUX/text@loc représentés dans le plan ‘nous’ x ‘je’.
Lecture :
- Dans le graphique de gauche : on voit rapidement que De Gaulle se distingue des autres présidents en utilisant beaucoup plus ‘nous’ que ‘je’ (il est situé en bas à droite du plan : en bas = moins de ‘je’, à droite = plus de ‘nous’) ;
- Dans le graphique de droite : si on sépare le plan en deux par une ligne pointillée diagonale indiquant la ligne d’usages équivalents entre les deux pronoms et on relie les point-colonnes par des flèches selon l’ordre chronologique des présidences, on voit une évolution chronologique depuis De Gaulle vers plus de ‘je’ (à gauche de la ligne pointillée et de plus en plus vers le haut) jusqu’à un retour en arrière à partir de Chirac, puis une reprise de l’évolution jusqu’à un usage équivalent entre les deux chez Macron.
7.14.4 Assistance à la lecture dans un plan factoriel
Dans le cas des visualisations dans les plans factoriels issus des résultats de l’AFC, les vecteurs colonnes et les vecteurs lignes sont composés de coordonnées dans un unique espace vectoriel des facteurs obtenu par le calcul. C’est une particularité de l’AFC et c’est pour cela que l’on peut visualiser les point-colonnes et les point-lignes dans un même plan - en utilisant tout de même des règles de lecture spécifiques.
On peut obtenir le détail des coordonnées de chaque point-colonne et de chaque point-ligne dans les tableaux d’aide à l’interprétation “des colonnes” resp. “des lignes” :
- la colonne c(1) affiche la coordonnée sur le premier axe factoriel ([c]-oordonnée dans le [1] axe)
- la colonne c(2) affiche la coordonnée sur le deuxième axe
- etc.
Pour obtenir les coordonnées d’un point-colonne particulier, on peut par exemple :
- Activer l’affichage des informations de point-colonnes
- Sélectionner le point-colonne dans le plan en cliquant dessus
- Le tableau d’informations de colonnes sélectionne alors la ligne correspondante
- Pour visualiser toutes les coordonnées ensemble, on peut utiliser le bouton
Regrouper les informations
- toutes les colonnes c(1), c(2), etc. sont alors regroupées sur la ligne du point-colonne
- Pour visualiser toutes les coordonnées disponibles, on peut utiliser le bouton
Afficher tous les axes
- toutes les coordonnées c(1), c(2), etc. disponibles sont alors affichées
- Pour visualiser toutes les coordonnées ensemble, on peut utiliser le bouton
7.14.5 Interprétation au delà des vecteurs
Dans le calcul, les colonnes et les lignes sont traitées exclusivement par le biais de leur représentation vectorielle.
Cela implique que le calcul est complètement agnostique à la nature des lignes et des colonnes.
C’est à dire à la nature des dimensions dans lesquelles sont situées resp. les colonnes et les lignes.
Cela est important à préciser dans le contexte de TXM parce que les colonnes et les lignes des tables lexicales peuvent être d’une grande diversité de natures. En particulier grâce à l’exploitation du moteur d’extraction CQP pour calculer les parties d’une partition et pour la création de tables lexicales à partir d’index de partition.
Par exemple, les colonnes peuvent représenter :
- des unités textuelles (des textes, des chapitres, des prises de parole…)
- des passages définis par l’utilisateur
- ou bien des valeurs de propriétés d’unités textuelles
- noms d’auteur ou de président
- siècles de publication ou décennies d’allocution
- tranches d’âge de locuteur
- types de locuteur
- etc.
Les lignes peuvent représenter :
- des formes graphiques
- des parties du discours
- des temps verbaux
- des personnes du verbe
- des fonctions syntaxiques
- des lemmes
- des propriétés de mots définies par l’utilisateur
- des séquences de formes
- des séquences de parties du discours
- des séquences de lemmes
- etc.
Il revient donc à l’utilisateur d’adapter son interprétation des résultats de l’AFC à la nature des données encodées dans la table lexicale traitée.
7.14.6 Paramètres
- Propriété (word, *lemma, *pos…) : Pour choisir la propriété de mot à utiliser pour construire les vecteurs de fréquences. Ce paramètre met à jour la table lexicale source de l’AFC.
7.14.7 Paramètres supplémentaires
Le panneau de paramètres rétractable, accessible par le bouton
“Afficher/Masquer les paramètres” permet de régler :
- des seuils
- Fmin : la fréquence totale minimale d’une valeur de propriété pour faire partie de la table ;
- Fmax : la fréquence totale maximale d’une valeur de propriété pour faire partie de la table ;
- Vmax : le nombre maximum de lignes de la table.
- des axes
- Nombre : le nombre d’axes que l’on peut visualiser. Ce paramètre sert surtout à limiter le nombre d’axes affichés, notamment dans les tableaux d’information.
- Inversés : la liste des axes inversés. Chaque axe sélectionné dans cette liste sera inversé à l’affichage.
Les résultats sont affichés dans deux vues côte-à-côte :
- la vue de gauche affiche une représentation graphique des plans factoriels
- la vue de droite affiche le détail des résultats sous la forme de
tableaux. Elle se subdivise en quatre onglets :
- les valeurs propres et le diagramme à barres de leur pourcentage d’inertie
- les informations sur les lignes
- les informations sur les colonnes
7.14.8 Affichage des point-colonnes et des point-lignes dans le plan factoriel
7.14.8.1 Choix des axes
- On choisit le plan d’AFC à afficher en indiquant :
- X : l’axe factoriel à utiliser pour l’axe horizontal du plan
- Y : l’axe factoriel à utiliser pour l’axe vertical du plan
- chaque axe X et Y dispose de son menu de sélection :
Figure 7.8: Choix des axes à utiliser.
- Exemple : le plan factoriel \((\overrightarrow{f_{1}}, \overrightarrow{f_{6}})\) de la partition VOEUX/text@loc
Figure 7.9: Plan factoriel VOEUX/text@loc (f₁, f₆).
Remarques :
- On ne peut pas sélectionner le même axe à la fois sur X et sur Y. Cette configuration fera l’objet d’une visualisation spécifique ultérieure.
- Le nombre d’axes disponibles pour l’affichage est modulé par le paramètre Axes / Nombre.
7.14.8.2 Inversion des axes
- On peut choisir d’inverser certains axes de l’AFC
- On peut se le permettre car les vecteurs propres sont définis au signe près
- Ceci peut aider la lecture d’un plan (par exemple en orientant de gauche à droite une évolution chronologique) ou bien aider à orienter des axes comme dans un autre logiciel pour pouvoir faciliter la comparaison de visualisations entre logiciels
- Le retournement des axes courants X et Y peut se déclencher depuis le menu contextuel du plan factoriel (commandes
Inverser l'axe X, resp.Inverser l'axe Y) - Les axes à inverser peuvent également être sélectionnés dans la liste des axes du paramètre ‘Inversés’ :
Figure 7.10: Liste des axes inversés.
- Le nombre d’axes retournables est modulé par le paramètre
Axes / Nombre - Exemple :
- Premier plan de l’AFC de la partition VOEUX/text@annee :
Figure 7.11: Plan VOEUX/text@loc (f₁, f₂) par défaut.
- Même plan avec l’axe 1 inversé :
Figure 7.12: Plan VOEUX/text@loc (f₁, f₂) avec l’axe f₁ (horizontal) inversé.
- Premier plan de l’AFC de la partition VOEUX/text@annee :
7.14.8.3 Choix des éléments à afficher
On peut choisir de n’afficher que les point-colonnes ou que les point-lignes ou les deux à l’aide des boutons
“Afficher/Masquer les point-colonnes” et
“Afficher/Masquer les point-lignes” de la barre d’outils.
Pour les points affichés, on peut choisir de n’afficher que les symboles ou les étiquettes ou les deux à l’aide des boutons
“Afficher/Masquer les symboles” et
“Afficher/Masquer les étiquettes” de la barre d’outils.
7.14.8.4 Filtrage des point-lignes et des point-colonnes
Pour focaliser la visualisation sur les éléments les plus pertinents on peut filtrer les point-lignes et les point-colonnes à partir des données d’aide à l’interprétation :
- Leur contribution aux axes - Cont(x) ou Cont(y)
- La qualité de leur représentation dans le plan - Q(x,y) [‘x’ resp. ‘y’ correspondent à l’axe horizontal resp. vertical du plan courant]
Les points filtrés ne sont pas affichés dans le plan.
7.14.8.4.1 Filtrage par défaut
Les seuils de filtrage par défaut sont calculés de sorte à limiter le nombre de point-lignes, qui en général sont quelques centaines, en n’affichant pas ceux qui :
- Cont(x) : ne sont pas parmi les plus contributeurs de 80% de l’inertie de l’axe \(\overrightarrow{x}\) ;
- Cont(y) : ET ne sont pas parmi les plus contributeurs de 80% de l’inertie de l’axe \(\overrightarrow{y}\) ;
- Q(x,y) : ET ne sont pas parmi les 20% les mieux représentés dans le plan \((\overrightarrow{x}, \overrightarrow{y})\).
Les point-colonnes, qui en général représentent les éléments que l’on cherche à caractériser par les mots qu’ils utilisent, ne sont pas filtrés par défaut.
7.14.8.4.2 Paramètres de filtrage
Les paramètres de filtrage sont accessibles par une zone escamotable depuis le bouton
de la barre de paramètres.
Figure 7.13: Formulaire de paramètres de filtrage et valeurs par défaut pour le plan VOEUX/text@loc (f₁, f₂).
- Les paramètres sont organisés en deux groupes :
- pour filtrer les point-lignes

- pour filtrer les point-colonnes

- pour filtrer les point-lignes
- Le coche situé en haut à gauche de chaque groupe active (ou désactive) les filtres de ce groupe
- Chaque groupe est composé de trois paramètres de filtrage :
- par Cont(x)

- par Cont(y)

- et par Q(x,y)

- par Cont(x)
- Les seuils de filtrage sont réglables par navigation (flèches) dans les valeurs effectives de Cont(x), Cont(y) et Q(x,y) ou par saisie directe.
- Pour chaque valeur de seuil choisie :
- des indicateurs au niveau de chaque paramètre précisent :
- le nombre de points potentiellement filtrés par le critère (e.g. ‘61/200’ pour 61 points sur 200)
- ainsi que l’inertie totale des points restants (e.g. ‘Σ%=80’ pour 80%)
- la ligne de synthèse située en bas de la fenêtre indique les statistiques de filtrage :
- le nombre final de point-colonnes et de point-lignes affichés dans le plan (e.g. pour les point-lignes : ‘Lignes 177/200’)
- la contribution totale à l’inertie de chaque axe des points affichés (e.g. pour les point-lignes : ‘ΣCont(x)=100%, ΣCont(y)=99%’ pour 100% de l’inertie de l’axe x et 99% de l’inertie de l’axe y, ‘x’ correspondant à l’axe 1 et ‘y’ correspondant à l’axe 2 dans l’illustration)
- des indicateurs au niveau de chaque paramètre précisent :
- Les seuils peuvent être réinitialisés pour filtrer les points qui ne sont pas les plus contributeurs de 80% de l’inertie en cliquant sur le bouton
[Σ%]ou bien sous la valeur moyenne des contributions avec le bouton[⋶].
7.14.8.5 Stylage des point-lignes et des point-colonnes
Pour caractériser visuellement les éléments les plus pertinents on peut styler les point-lignes et les point-colonnes à partir des données d’aide à l’interprétation :
- leur contribution aux axes - Cont(x) ou Cont(y)
- la qualité de leur représentation dans le plan - Q(x,y)
[‘x’ resp. ‘y’ correspondent à l’axe horizontal resp. vertical du plan courant]
Le stylage est organisé par feuilles de styles contenant des règles de stylage.
Les règles de stylage s’appliquent en fin d’affichage du plan, après l’application des choix de base de l’affichage de l’AFC :
paramètres graphiques généraux
affichage ou non des symboles de points (faux par défaut) [noter que la valeur de ce paramètre déplace les couleurs par défaut des symboles aux étiquettes et inversement]
affichage ou non des étiquettes de points (vrai par défaut)
7.14.8.5.1 Stylage par défaut
La feuille de style par défaut, appelée ‘Cont(x,y)+Q(x,y)’, style les points du plan pour mettre en évidence les points les plus contributeurs et les mieux représentés dans le plan courant à l’aide des règles suivantes :
Figure 7.14: Règles de la feuille de style par défaut.
- règle 1 (première ligne) : la transparence des étiquettes et des symboles des point-lignes et des point-colonnes doit être proportionnelle à la qualité de représentation du point dans le plan (Q(x,y))
- règle 2 : la taille des étiquettes et des symboles des point-lignes et des point-colonnes doit être proportionnelle à leur contribution aux axes x ou y (Cont(x,y))
- règle 3 : les symboles des point-lignes et des point-colonnes doivent être un disque
Remarque : cette dernière règle est inopérante par défaut car les symboles de points ne sont pas affichés par défaut. Mais elle opère dès que les symboles sont ré-affichés dans les choix d’affichage de l’AFC.
L’application de cette feuille de style à l’AFC de la partition VOEUX/text@loc montre :
- la mise en évidence des point-colonnes ‘3 Giscard’ et ‘1 De Gaulle’ et des point-lignes “qu’”, ‘compatriotes’, ‘chers’ et ‘vous’, ‘voeux’, ‘votre’ contributeurs aux axes 1 et 2
- l’utilisation des couleurs d’étiquettes par défaut (rouge pour les point-colonnes et bleu pour les point-lignes)
Figure 7.15: Stylage par défaut du plan VOEUX/text@loc (f₁, f₂).
En plus de la feuille de style ‘Cont(x,y)+Q(x,y)’ utilisée par défaut, TXM est livré avec d’autres feuilles prédéfinies :
<Sans style>: pas d’application de styles particuliers en dehors des choix de base de l’affichage de l’AFC- Cont(x)+cos²(x) : styles similaires à la feuille ‘Cont(x,y)+Q(x,y)’ mais n’utilisant que la contribution et la qualité de représentation sur l’axe ‘x’ seul. Cette feuille peut être utilisée pour se focaliser sur l’interprétation de l’axe ‘x’ ;
- Cont(y)+cos²(y) : styles similaires à la feuille ‘Cont(x,y)+Q(x,y)’ mais n’utilisant que la contribution et la qualité de représentation sur l’axe ‘y’ seul. Cette feuille peut être utilisée pour se focaliser sur l’interprétation de l’axe ‘y’ ;
- Q(x,y) : styles similaires à la feuille ‘Cont(x,y)+Q(x,y)’ mais n’utilisant pas la contribution aux axes. Cette feuille peut être utilisée pour se focaliser sur la qualité de représentation dans le plan sans s’intéresser aux contributions aux axes.
7.14.8.5.2 Création et modification de feuilles de style
L’éditeur de la feuille de style courante est accessibles par une zone escamotable depuis le bouton «
de la barre de paramètres. Il s’ouvre au dessus de l’affichage du plan courant.
- On ne peut pas modifier une feuille de style prédéfinie mais on peut modifier une feuille créée par soi-même (à l’aide du bouton
[Nouveau]) ou bien modifier une feuille clonée à partir de n’importe quelle autre feuille de style (créée par le bouton[Cloner]- la feuille courante) - Pour préserver les modifications d’une feuille de style, il faut l’
[Enregistrer]. Lors de l’enregistrement on a la possibilité de renommer la feuille de style. - L’interface d’accès aux règles d’une feuille de style prend la forme d’un tableau où chaque ligne correspond à une règle :
Figure 7.16: Éditeur de feuille de style.
- Les nouvelles règles de stylage sont créées :
- soit par clonage d’une règle existante sélectionnée, à l’aide du bouton
(+)vert
situé à l’extrémité des lignes de règles
- la nouvelle règle est créée immédiatement après la règle clonée
- soit par clonage d’une règle existante sélectionnée, à l’aide du bouton
- soit à partir d’une sélection de lignes d’information de point-colonnes ou de point-lignes
- Exemple :
Une nouvelle règle est créée à partir des deux lignes d’information de point-colonnes ‘1 De Gaulle’ et ‘2 Pompidou’ en appellant la commande ‘Créer une règle de style à partir de la sélection’ du menu contextuel du tableau. Une nouvelle règle est ajoutée à la fin de la feuille pré-remplie pour déclencher par expression régulière
Figure 7.17: Création d’une règle à partir de lignes d’information.
1 De Gaulle|2 Pompidousur l’étiquette de point-colonnes.
- Les règles sont supprimées par le bouton

- Les règles étant interprétées du début à la fin du tableau, leur ordre peut avoir son importance sur le résultat final.
- L’ordre des règles est modifié à l’aide des boutons de flèches de déplacement ‘
haut’ et ‘bas’
- Chaque règle est définie par une ligne composée de 9 colonnes (les quatres dernières étant affichées à la demande avec les boutons
[Plus >]et[< Moins]) organisées en 5 parties : Activation, Focalisation, Verbe, Paramètres et Déclenchement- Activation : la première colonne (anonyme), constituée de “cases à cocher”, détermine si la règle est active ou non
- Focalisation : les colonnes ‘Points’ et ‘Cible’ focalisent la règle sur un type de points et sur un de leurs éléments
- Points, type de points concerné par la règle :
- point-‘Lignes’ seuls
- point-‘Colonnes’ seuls
- ou les deux ‘Lignes&Colonnes’
- Cible, élément du point concerné par la règle :
- ‘Étiquette’ seule
- ‘Symbole’ seul
- ou les deux ‘Étiquettes&Symboles’
- Verbe : la colonne ‘Style’ définit la propriété d’un élément à modifier
- Style :
<vide>: la règle ne modifie aucun style d’élément (état de départ, transitoire)- Couleur : modifie la couleur d’un élément
- Ne pas afficher : supprime l’affichage d’un élément
- Symbole : modifie le symbole affiché pour un point
- Taille : modifie la taille d’un élément
- Transparence : modifie la transparence d’un élément
- Paramètres : les colonnes ‘Valeur’ et ‘Paramètres’ précisent si nécessaire le ‘Style’ souhaité (colonne précédente)
- Valeur : la valeur de cette colonne dépend de celle de la colonne ‘Style’
- pour le style ‘Couleur’ :
- ‘Rouge, ’Bleu’, ‘Vert’, etc. une des couleurs de la palette de TXM
- ‘Couleur à sélectionner’ permet de choisir une couleur quelconque à l’aide de la colonne ‘Paramètres’ en cliquant sur les
[...] - ‘Noir, ’Gris 90%’, ‘Gris 80%’, etc. un niveau de gris
- pour le style ‘Symbole’ :
- ‘Disk, ’Diamond’, ‘Square’, etc. une des formes de symboles de points
- pour le style ‘Taille’ :
- ‘Proportionnel à …’ rend la taille proportionnelle à la valeur d’une information d’aide à l’interprétation : Q(x,y), Masse, Dist, etc. Dans ce cas la colonne ‘Paramètres’ permet de préciser le domaine [Min, Max] des valeurs de taille à utiliser en sortie
- ‘x 1’, ‘x 1,2’, ‘x 1,4’, etc. un facteur multiplicateur fixe de la taille par défaut
- pour le style ‘Transparence’ :
- ‘Proportionnel à …’ rend la transparence proportionnelle à la valeur d’une information d’aide à l’interprétation : Q(x,y), Masse, Dist, etc. Dans ce cas la colonne ‘Paramètres’ permet de préciser le domaine [Min, Max] des valeurs de transparence à utiliser en sortie
- ‘0%’, ‘10%’, ‘20%’, etc. un pourcentage fixe de transparence
- pour le style ‘Couleur’ :
- Déclenchement : les colonnes ‘Info’, ‘Seuil’ et ‘Étiquette’ permettent de préciser si une règle doit se déclencher sous certaines conditions
- Info : permet de déclencher une règle si la valeur d’une information d’aide à l’interprétation (Q(x,y), Masse, Dist, etc.) du point courant dépasse un certain seuil défini dans la colonne Seuil.
- la colonne Seuil permet alors de préciser le sens du seuillage (plus grand qu’un seuil ou plus petit qu’un seuil donné) et la valeur du seuil
- Étiquette : permet de déclencher une règle si l’étiquette du point courant correspond à une expression régulière. Par exemple si cette colonne est remplie avec l’expression régulière
p.*, seuls les points ayant une étiquette commençant par ‘p’ seront concernés par la règle.
7.14.8.6 Réglages de l’affichage
L’échelle du graphique (Zoom) peut être modifiée avec la molette de la souris et sa position (Panoramique) par un cliquer-glisser du bouton gauche de la souris.
Le bouton
« Outils de navigation pour Zoomer, se déplacer dans la vue » (en forme de boussole) ouvre un panneau retractable supplémentaire d’outils de navigation :
Zoomer en avant
Zoomer en arrière
Déplacer vers le haut
Déplacer vers le bas
Déplacer à gauche
Déplacer à droite
Zoomer horizontalement
Dézoomer horizontalement
Zoomer verticalement
Dézoomer verticalement
L’échelle et la position du graphique peuvent être réinitialisées en
cliquant sur le bouton
« Rétablir la vue initiale ».
Voir également les raccourcis clavier graphique de zoom, déplacement etc. dans la section TODO.
Le bouton
“Afficher/Masquer les paramètres de rendu” ouvre un panneau retractable de réglages généraux d’affichage des élements :
- Réglages généraux des graphiques
- Afficher/Masquer le titre
- Afficher/Masquer la légende
- Afficher/Masquer la grille
7.14.9 Affichage des aides à l’interprétation
L’affichage des tableaux d’informations d’aide à l’interprétation est piloté par trois boutons de la barre d’outils :
Afficher les informations de colonnes
Afficher les informations de lignes
Afficher les informations sur les valeurs propres
7.14.9.1 Tableaux d’informations d’aide à l’interprétation
Figure 7.18: Tableau d’information des point-colonnes du plan VOEUX/text@loc (f₁, f₂)’.
Les tableaux d’information sur les colonnes et les lignes indiquent :
la qualité de la représentation du point dans le plan « Q(x,y) » : calculée comme la somme des cos² du point sur les deux axes concernés : plus la qualité est proche de 1, moins la position du point est déformée par la projection dans le plan.
le poids relatif du point « Masse »: la fréquence est rapportée à la somme des fréquences des autres mots (lignes).
le carré de la distance du point à l’origine « Dist » (l’origine est le centre de gravité du nuage de points : plus la distance est grande, plus le point s’écarte du profil moyen, autrement dit plus il est original par rapport au reste du corpus)
la contribution du point à la construction de l’axe « Cont(x) ». La somme des contributions vaut 100 et les points qui présentent les plus fortes contributions pour un axe donné servent à l’interpréter.
le cos² du point sur chaque axe « Cos²(x) »: la mesure de l’angle entre le vecteur représentatif du point et l’axe. Un cos² proche de 1 indique que le point est bien représenté sur l’axe alors qu’un cos² proche de 0 indique que la projection déforme fortement le point par rapport à cet axe et qu’il vaut mieux donc éviter d’interpréter la position du point par rapport aux autres selon la coordonnée sur cet axe. En particulier, un point qui a un cos² faible sur les deux axes de la représentation choisie a une position trompeuse ; sa proximité apparente avec d’autres points ne doit pas être interprétée dans ce plan.
les coordonnées des points « c(x) ».
Les coordonnées des points sont accessibles par le bouton
“Afficher les coordonnées de l’axe” ;Le bouton
“Afficher tous les axes” permet d’ajouter l’affichage des coordonnées des autres axes que ceux du plan courant ;Le bouton
“Regrouper les informations” permet de grouper les colonnes par types :- tous les Cont(x)
- tous les Cos²(x)
- tous les c(x) Alors que par défaut ces informations sont affichées axe par axe
Quand seul un tableau d’information est ouvert, le bouton
“Afficher la fenêtre du plan de l’AFC” permet d’afficher également le plan factoriel.
7.14.9.2 Tableau des valeurs propres
Le tableau des valeurs propres caractérise les vecteurs propres correspondants aux facteurs (ou nouvelles dimensions) obtenus par le calcul. Chaque facteur est associé à un axe et à des coordonnées.
Figure 7.19: Tableau des valeurs propres de l’AFC de la partition VOEUX/text@loc’.
Le tableau indique pour chaque valeur propre : son rang, sa valeur, son pourcentage d’inertie ainsi que le cumul des pourcentages d’inertie.
Il est trié par valeur propre décroissante par défaut.
Le diagramme à barres des valeurs propres
en donne un aperçu analogique :
Figure 7.20: Tableau des valeurs propres de l’AFC de la partition VOEUX/text@loc’.
Quand seul le tableau des valeurs propres est ouvert, le bouton
“Afficher la fenêtre du plan de l’AFC” permet d’afficher également le plan factoriel.
7.14.10 Sélection croisée de points dans le graphique et dans les tableaux d’information
Les fenêtres de résultats offrent un mécanisme de sélection multiple et de mise en évidence des points combiné entre les points des graphiques et les lignes des tableaux de données. Cliquer sur un point dans le graphique ou dans l’un des tableaux a pour effet de le mettre en surbrillance. La sélection multiple se fait par le mécanisme habituel du système d’exploitation : Ctrl-Clic gauche (Windows et Linux) et Cmd-Clic gauche (Mac OS X) permute entre l’ajout et le retrait d’un point dans la sélection en cours.
La commande de recherche par expression régulière dans un tableau de données (raccourcis Ctrl-F) peut être utilisée conjointement avec la mise en évidence par sélection multiple et étendue (voir également la section dédiée à la sélection multiple et étendue : « 6.14 Visualisations graphiques » page 124).

7.14.11 Export
Les tableaux de données de l’AFC peuvent être exportés à l’aide du bouton
.
Le plan factoriel courant est exportable sous forme d’image, voir la section 6.15.1.2 Export des graphiques page 126.
7.14.12 Modification de la table lexicale source depuis des points d’un plan d’AFC
- On peut supprimer des lignes et des colonnes de la table lexicale source depuis la visualisation de l’AFC à partir de leur ligne d’aide à l’interprétation dans les tableaux d’information de point-lignes et de point-colonnes.
- Exemple :
Figure 7.21: Suppression de points correspondant à des lignes de ponctuations.
- Les lignes correspondant aux ponctuations
-,;:!?et.sont supprimées par la commande ‘Supprimer’ du menu contextuel du tableau d’information sur les point-lignes
- Les lignes correspondant aux ponctuations
- Attention il ne s’agit pas de passage en éléments supplémentaires (qui sera implémenté dans une phase ultérieure des développements) mais bien de la suppression des lignes ou des colonnes, comme si cela était réalisé en amont en éditant la table lexicale directement.
- Cela peut être utile dans les phases initiales d’une analyse d’AFC, par exemple dans le cas des lignes quand certaines ponctuations fréquentes prennent le dessus sur la structure factorielle (ce qui se voit tout de suite dans le plan factoriel) sans que cet aspect soit très pertinent pour l’analyse en mots du discours (par exemple à cause d’une disparité artéfactuelle d’usages typographiques - caractères de ponctuation, distinction min/maj, etc. - entre textes ou entre groupes de textes au sein d’un même corpus). Cela permet d’appliquer une AFC à un corpus dont l’affinage philologique n’a pas été réalisé.
7.14.13 Références
L’algorithme de l’outil AFC est implémenté par le package FactoMineR (Lê, Josse, & Husson, 2008).
Pour de plus amples informations, notamment d’un point de vue R, merci de consulter la documentation de ce package :
documentation R officielle :
http://cran.r-project.org/web/packages/FactoMineR/index.htmlmanuel PDF :
http://cran.r-project.org/web/packages/FactoMineR/FactoMineR.pdfsite web de référence : http://factominer.free.fr
documentation de référence (dont monographies) : http://factominer.free.fr/docs/index.html
7.15 Classification Ascendante Hiérarchique (CAH)
L’outil Classification
calcule la classification ascendante
hiérarchique (CAH) (Benzécri, 1979a) des colonnes ou des lignes d’une
table lexicale ou d’une partition.
Quand elle est appliquée à une partition, une table lexicale est d’abord construite à la volée puis la CAH est appliquée à cette table lexicale. Cette table lexicale est masquée par défaut. Pour la visualiser on peut lancer la commande “Afficher les parents cachés” du menu contextuel de l’icone de la CAH dans la vue Corpus.
Dans la table lexicale calculée à la volée, les colonnes correspondent aux parties et contiennent le vecteur colonne des fréquences des valeurs de la propriété de mot choisie, et les lignes contiennent les fréquences au sein de chaque partie d’une des valeurs de la propriété de mot.
L’outil CAH doit être appliquée à une partition constituée d’au moins trois parties ou à une table lexicale constituée d’au moins trois colonnes.
L’outil CAH s’appuie également sur une AFC calculée à la volée à partir de la table lexicale. Cette AFC est masquée par défaut. Pour la visualiser on peut lancer la commande “Afficher les parents cachés” du menu contextuel de l’icone de la CAH dans la vue Corpus.
7.15.1 Paramètres
- Propriété (word, *lemma, *pos…) : Pour choisir la propriété de mot à utiliser pour construire les vecteurs de fréquences. Ce paramètre met à jour la table lexicale source de la CAH.
- Classification (Colonnes ou Lignes) : choix de ce qui est à classer, les colonnes ou les lignes de la table lexicale
- Classes : Choix du nombre de classes à représenter (à mettre en évidence par des couleurs) dans le dendrogramme. Détermine le noeud du dendrogramme où les classes ne seront plus regroupées. Les classes correspondront aux regroupements immédiatement inférieurs.
7.15.2 Paramètres supplémentaires
Le panneau de paramètres rétractable, accessible par le bouton
“Afficher/Masquer les paramètres” (roue dentée) permet de régler :
- des seuils (groupe Seuils)
- Fmin : La fréquence totale minimale d’une valeur de propriété pour faire partie de la table lexicale ;
- Fmax : La fréquence totale maximale d’une valeur de propriété pour faire partie de la table lexicale ;
- Vmax : Le nombre maximum de lignes de la table lexicale.
- l’analyse factorielle associée
- Nombre d’axes : La CAH utilise une distance entre les lignes du tableau lexical basée sur leurs coordonnées factorielles issues d’une AFC préalable. Ce paramètre détermine combien de coordonnées factorielles seront utilisées pour calculer la distance.
- le post-traitement
- Consolidation des classes : Améliorer l’homogénéité des individus au sein des classes de la CAH par regroupement final par k-means. Attention : avec ce calcul les classes ne correspondent plus forcément aux regroupements du dendrogramme.
7.15.3 Préférences
On trouvera des paramètres supplémentaires dans les préférences de l’outil classification ascendante hiérarchique :
- nombre de classes à représenter par défaut ;
- méthode d’agrégation à utiliser ;
- distance à utiliser ;
- limite du prétraitement par k-means ;
- consolidation des classes par défaut ;
- type de visualisation du dendrogramme ;
- paramètres graphiques.
7.15.4 Représentation vectorielle utilisée
Quand les colonnes sont classées, elles sont représentées initialement par le vecteur des fréquences de chaque ligne. La taille du vecteur correspond donc au nombre de lignes L.
Quand les lignes sont classées, elles sont représentées initialement par le vecteur des fréquences de chaque colonne. La taille du vecteur correspond donc au nombre de colonnes C.
Comme la classification implémentée dans FactoMineR utilise une représentation basée sur les coordonnées des facteurs résultants d’une AFC préalable appliquée à la table lexicale, les vecteurs utilisés pour représenter les colonnes ou les lignes dans la classification auront finalement toujours une taille identique correspondant au nombre de facteurs de cette AFC. C’est à dire souvant C-1 dans TXM (plus de lignes que de colonnes).
7.15.5 Affichage du dendrogramme des classes
Le type de visualisation est piloté par le dernier paramètre de la barre de paramètres où l’on choisit ‘2D’ ou ‘3D’ :
- 2D : Affichage en 2 dimensions du dendrogramme orienté horizontalement pour faciliter la lecture des étiquettes des feuilles
- Les colonnes, ou les lignes, d’une même classe sont regroupées dans un rectangle de couleur et leur étiquette est affichée avec un fond de même couleur que la classe
- Une ligne discontinue représente le niveau où le dendrogramme est coupé pour obtenir le nombre de classes souhaité
- Avec possibilités de Zoom et de Panoramiques à la souris
Figure 7.22: Visualisation 2D du dendrogramme des classes de colonnes de la partition VOEUX/text@loc.
- 3D : Affichage en 3 dimensions du dendrogramme superposé au premier plan factoriel de l’AFC associée à la CAH
- Les étiquettes des point-colonnes, ou des point-lignes, d’une même classe ont la même couleur
- Le regroupement des point-colonnes ou des point-lignes par classes de la CAH (couleurs) dans le plan de l’AFC permet de vérifier leur bonne séparation dans le plan.
Si, par exemple, les point-colonnes d’une même classe de CAH ne sont pas bien regroupés dans le plan, cela veut dire que les point-lignes contribuant aux facteurs de ce plan
sont peu discriminants pour cette classe et le regroupement de ces point-colonnes. Le regroupement de ces point-colonnes sera peut-être meilleur dans un autre plan factoriel.
Et inversement, des point-colonnes d’une même classe de CAH bien regroupés dans le plan indiquent que les facteurs de ce plan - et les point-lignes qui y contribuent - contribuent à la différenciation de cette classe avec les autres.
Figure 7.23: Visualisation 3D du dendrogramme des classes de colonnes de la partition VOEUX/text@loc.
Export du dendrogramme
Le dendrogramme est exportable sous forme d’image, voir la section TODO.
7.15.6 Affichage des aides à l’interprétation
L’affichage des tableaux d’informations d’aide à l’interprétation fournis par FactoMineR est piloté par quatre boutons de la barre d’outils :
Description des classes par les colonnes
- composé des colonnes ‘Intern %’, ‘glob %’, ‘Intern freq’, ‘Glob freq’, ‘p.value’
Description des classes par les lignes
- composé des colonnes ‘para’, ’dist’
Diagramme à barres des inerties des noeuds de regroupement (affiché par défaut)
Figure 7.24: Diagramme à barres des inerties des noeuds de regroupement des colonnes de la partition VOEUX/text@loc.
Description des classes par les facteurs de l’AFC
- composé des colonnes ‘v.test’, ‘Mean in category’, ‘Overall mean’, ‘sd in category’, ‘Overall sd’
Quand seul un tableau d’information est ouvert, le bouton
“Afficher la classification” permet d’afficher également la classification à côté.
Les tableaux d’informations de la CAH peuvent être exportés sous forme de tableur, voir la section TODO.
7.16 Lecture des tableaux de résultats
7.16.1 Figement des premières colonnes clés des tableaux de résultats
Afin de pouvoir se déplacer horizontalement dans les colonnes de grands tableaux de données, tout en conservant une vue sur les colonnes clés des lignes visualisées, les premières colonnes clés des tableaux de résultat des commandes Concordance (références), Table Lexicale, Spécificités et Index de partition (word / unités, F) sont figées horizontalement. C’est à dire qu’elles sont toujours visibles quels que soient les déplacements horizontaux.
Ci-dessous un exemple de Table Lexicale avec les deux premières colonnes (word, F) figées :
Figure 7.25: Exemple de table lexicale avec les premières colonnes figées.
7.17 Visualisations graphiques
Certaines commandes de TXM produisent des représentations graphiques dans des onglets dédiés. Ces onglets contiennent une barre d’outils spécifique à la visualisation et partagent des possibilités de manipulation des graphiques.
7.17.0.1 Manipulation interactive
Conventions de nommage :
« Ctrl- » signifie maintenir appuyée la touche Ctrl du clavier avec la touche correspondante pour les systèmes Windows et Linux ;
« Cmd- » signifie maintenir appuyée la touche Commande du clavier avec la touche correspondante sous Mac.
Vous pouvez interagir avec les graphiques de la façon suivante :
changement d’échelle (zoom) : molette de la souris, ou Ctrl- « + » et Ctrl-« - » (Cmd- « + » et Cmd-« - »sous Mac)
translation de la vue (panoramique) : clic gauche et déplacement de la souris, ou flèches du clavier
revenir à la vue initiale : bouton
de la barre d’outils de l’onglet
des graphiques ou Ctrl-0 (Cmd-0 sous Mac)
7.17.0.2 Affichages complémentaires
Différentes informations sont affichées en info-bulle lorsque le curseur de la souris se trouve au dessus d’un élément du graphique (ex. barre, point, ligne). Ces données complémentaires dépendent du type de graphique (ex. AFC, dimensions de partition, etc.).
7.17.0.3 Mise en évidence et sélection d’éléments
Les éléments des graphiques peuvent être mis en évidence en utilisant le mécanisme de sélection. La sélection d’éléments fonctionne de façon analogue à celle des fichiers dans les explorateurs de fichiers du système d’exploitation (Remplacer « Ctrl- » par « Cmd- » sous Mac) :
clic gauche sur un élément : sélectionne l’élément de manière exclusive, en dé-sélectionnant les autres au besoin
Ctrl + clic gauche : ajoute ou retire un élément à la sélection
Màj + clic gauche : sélection étendue, ajoute ou retire tous les éléments jusqu’au dernier élément sélectionné dans le graphique
touche flèche gauche et touche flèche droite : cycle en sélectionnant les éléments de manière exclusive les uns à la suite des autres
Màj + flèches gauche et droite : sélection étendue : cycle en ajoutant ou retirant de la sélection les items les uns à la suite des autres
7.18 Exploitation des résultats
7.18.1 Exportation des résultats
Tous les résultats d’une commande TXM, sous forme de tableau ou de visualisation graphique, peuvent être exportés dans un fichier pour pouvoir être traité dans un autre logiciel (traitement de texte pour publication, tableur pour analyses complémentaires, etc.).
7.18.1.1 Export des tableaux
Les résultats sous forme de tableau sont exportés au format CSV : sélectionnez l’icone du résultat dans la vue « Corpus » et cliquez sur l’icone dans la barre d’outils, ou bien sur la commande « Exporter > Données… » dans le menu contextuel ou encore lancer la commande depuis le menu principal « Fichier > Exporter > Données… ».
Les caractéristiques du CSV, comme le caractère séparateur de colonnes, etc., peuvent être réglées dans la page de préférences « TXM > Utilisateur > Export ».
7.18.1.2 Export des graphiques
Les visualisations graphiques peuvent être exportées à l’aide du bouton
de la barre d’outils des fenêtres de graphiques.
Cette commande exporte la graphique tel qu’il
apparaît dans la visualisation, c’est-à-dire en tenant compte des
changements d’échelle, des déplacements latéraux effectués et des
éventuels réglages du graphique.
7.18.1.2.1 Choix du format de fichier image
Avant d’exporter vos graphiques vers des fichiers images, vous pouvez choisir dans les préférences de TXM le format du fichier image proposé par défaut dans la boite de dialogue d’export.
Le format est précisé dans la préférence « TXM > Utilisateur > Graphiques > Format d’export » :
- les valeurs possibles sont :
- pour les images bitmap : BMP, GIF++, JPEG+, PNG++, TIFF
- pour les images vectorielles : PDF, SVG
(permettent n’importe quel niveau de zoom sans altérer la qualité visuelle)
Notes :
- + : compressé (les fichiers sont de plus petite taille)
- ++ : compressé sans perte (les fichiers sont de plus petite taille et préservent tous les pixels d’origine)
7.18.1.2.2 Choix des caractéristiques de l’image exportée
Avant d’exporter vos graphiques vers des fichiers images, vous pouvez choisir leurs caractéristiques exportées à l’aide du formulaire “Propriétés des graphiques exportés” des préférences « TXM > Utilisateur > Graphiques ».
Vous pouvez ainsi vous conformer aux consignes fournies par un éditeur ou un imprimeur, par exemple, et entrer les valeurs souhaitées dans les champs de formulaire afin de produire un fichier image aux caractéristiques demandées.
Le formulaire contient 2 champs modifiables :
- Largeur d’affichage (cm) : la largeur d’affichage à l’écran ou d’impression souhaitée en centimètres
(11.0 centimètres par défaut) - Résolution (dpi) : la résolution en DPI (Dot Per Inch, Points par pouce)
- les valeurs de résolution possibles sont : 72, 96, 150, 300, 400, 600, 1200
(300 dpi par défaut) - les densités jusqu’à 150 sont plutôt pour des images destinées à être affichées à l’écran (par exemple dans un site web) et au delà pour des images à imprimer
- les valeurs de résolution possibles sont : 72, 96, 150, 300, 400, 600, 1200
Modifier la largeur ou la résolution souhaitée calculera la largeur finale en pixels des images exportées au format bitmap. La largeur en pixels est indiquée dans le champ “Largeur résultante (pixels)”. Cette valeur peut être un bon indicateur de qualité.
Figure 7.26: Caractéristiques des graphiques exportés.
7.18.2 Traitement des résultats avec R
Pour les utilisateurs de R, il est possible de manipuler les résultats dans l’espace de travail de R. Certains résultats sont par défaut déjà disponibles dans l’environnement R : Spécificités, AFC, Classification, Progression, Table lexicale. Les autres peuvent être transférés à la demande avec la commande « Envoyer vers R » : lexique, index, concordance, corpus.
La façon d’accéder à ces résultats depuis R est documentée à la section Utilisation des résultats et objets TXM depuis R page 219.
7.18.3 Exploiter les graphiques de résultats dans d’autres logiciels
TXM produit les graphiques de résultats aux formats suivants :
Vectoriels
SVG - Scalable Vector Graphics
Format ouvert d’image vectoriel standardisé par le W3C http://www.w3.org/Graphics/SVG, http://fr.wikipedia.org/wiki/Scalable_Vector_Graphics ;PS - PostScript
Format propriétaire d’image vectoriel de la société Adobe Systems http://fr.wikipedia.org/wiki/PostScript ;PDF - Portable Document Format
Format propriétaire de document vectoriel de la société Adobe Systems http://fr.wikipedia.org/wiki/Portable_Document_Format ;Bitmaps
PNG - Portable Network Graphics
Format ouvert d’image bitmap compressé sans perte normalisé par l’ISO http://www.w3.org/TR/PNG, http://fr.wikipedia.org/wiki/Portable_Network_Graphics ;JPEG - Joint Photographic Experts Group
Format ouvert d’image bitmap compressé avec perte normalisé par l’ISO/CEI 10918-1 | UIT-T Recommendation T.81 http://fr.wikipedia.org/wiki/JPEG.
Le choix du format d’export se règle dans les Préférences : Préférences / Utilisateur / Export / Format des graphiques R par défaut.
Les formats vectoriels présentent l’avantage de pouvoir varier de taille sans perte de détails (zoom = agrandissement ou réduction général de l’image) et de pouvoir être édités par des logiciels spécialisés (par exemple pour ajuster la typographie en fonction de consignes éditoriales, pour améliorer la lisibilité en agrandissant ou réduisant les caractères sans changer l’échelle globale du graphique, pour déplacer la légende, etc.).
Nous recommandons :
le logiciel gratuit et open-source « InkScape » pour éditer le format SVG http://www.inkscape.org/fr ;
le logiciel commercial « Adobe Illustrator » pour éditer le format PS http://www.adobe.com/fr/products/illustrator.html.
TXM privilégie l’export des graphiques de résultats au format SVG.
Les formats bitmaps sont pris en charge par un plus grand nombre d’outils de travail et surtout sont plus faciles à manipuler dans les traitements de texte. Le format JPEG est un peu mieux pris en charge que PNG sous Windows. C’est donc le format le plus facile à manipuler en dehors de TXM, même s’il n’est pas encore très pratique à manipuler au sein de TXM lui-même (nous devons homogénéiser la façon avec laquelle il est exporté depuis TXM).
7.18.3.1 Import direct d’une image vectorielle au format SVG dans le traitement de texte LibreOffice Writer
produire et exporter un graphique dans TXM au format SVG. Par exemple :
dans TXM créer une partition dans le corpus DISCOURS appelée « loc » à partir de la structure « text » et son attribut « loc » ;
régler le champ « Préférences / Utilisateur / Export / Format des graphiques R par défaut » à la valeur « SVG » ;
lancer la commande «Dimensions» sur la partition « loc » ;
dans la barre d’outils de l’onglet des graphiques, cliquer sur le bouton , sélectionner le type « *.svg » dans la boîte de dialogue et sauver le graphique dans un fichier ;
importer l’image dans Writer :
dans Writer lancer la commande « Insertion / Image / À partir d’un fichier » ;
désigner le fichier SVG en navigant jusqu’à son dossier ;
l’image est alors insérée à l’endroit du curseur. Vous pouvez si nécessaire régler la taille de l’image avec la souris :
cliquer sur l’image → des poignées vertes de manipulation s’allument :
« Màj-clic » sur une des poignées et déplacer la souris fait varier la taille de l’image de façon homothétique (l’image n’est pas déformée) ;
cliquer sur l’image et déplacer la souris déplace l’image dans la page.
7.18.3.2 Import direct d’une image bitmap au format JPEG dans le traitement de texte LibreOffice Writer
produire et exporter un graphique dans TXM au format JPEG. Par exemple :
dans TXM créer une partition dans le corpus DISCOURS appelée « loc » à partir de la structure « text » et son attribut « loc » ;
lancer la commande «Dimensions» sur la partition « loc » ;
dans la barre d’outils de l’onglet des graphiques, cliquer sur le bouton , sélectionner le type « *.jpeg » dans la boîte de dialogue et sauver le graphique dans un fichier ;
importer l’image dans Writer :
dans Writer lancer la commande « Insertion / Image / À partir d’un fichier » ;
désigner le fichier JPEG en navigant jusqu’à son dossier ;
l’image est alors insérée à l’endroit du curseur. Vous pouvez si nécessaire changer la taille de l’image avec la souris :
cliquer sur l’image → des poignées vertes de manipulation s’allument ;
« Màj-clic » sur une des poignées fait varier la taille de l’image de façon homothétique (l’image n’est pas déformée).
7.18.3.3 Édition préalable d’un graphique au format SVG avec InkScape
produire et exporter un graphique dans TXM au format SVG. Par exemple :
dans TXM créer une partition dans le corpus DISCOURS appelée « loc » à partir de la structure « text » et son attribut « loc » ;
régler le champ « Préférences / Utilisateur / Export / Format des graphiques R par défaut » à la valeur « SVG » ;
lancer la commande «Dimensions» sur la partition « loc » ;
dans la barre d’outils de l’onglet des graphiques, cliquer sur le bouton , sélectionner le type « *.svg » dans la boîte de dialogue et sauver le graphique dans un fichier ;
éditer l’image dans InkScape:
ouvrir le fichier SVG depuis InkScape ;
avec la souris tracer un rectangle autour de la légende des ordonnées « Nombre de mots par partie » pour la sélectionner :
Utiliser la touche « flèche gauche » du clavier pour translater la légende vers la gauche (ou « cliquer-glisser » avec la souris sur la sélection) :
Vous pouvez alors sauvegarder votre travail pour un import ultérieur dans un traitement de texte.
7.19 Récapitulatif des relations entre commandes et résultats
Ces relations sont accessibles en général à partir du menu contextuel d’un résultat ou d’une icone.
| COMMANDES | DEPUIS | VERS | UTILISÉ PAR |
|---|---|---|---|
| AFC | Partition Table lexicale | ||
| Classification | AFC | AFC | |
| Concordances | Corpus Index Lexique Cooccurrences | Édition | Cooccurrences |
| Cooccurrences | Corpus | Concordances | |
| Corpus | Import | Cooccurrences Concordances Corpus Description Édition Index Lexique Partition Progression | |
| Description | Corpus | ||
| Index | Corpus Partition | Concordances Progression | Table lexicale d’une partition |
| Lexique | Corpus | Concordances Progression | |
| Partition | Corpus | AFC Édition Index Spécificités Table lexicale | |
| Progression | Corpus | ||
| Références | Corpus | Concordances | |
| Sous-Corpus | Corpus | Idem que Corpus + Spécificités | |
| Spécificités | Partition Table lexicale Sous-corpus | ||
| Table lexicale | Partition Index d’une partition | AFC Spécificités | |
| Édition | Concordances Corpus Sous-Corpus Partition | ||
| Documentation | Corpus |
7.20 Requêtes CQL
Cette section intègre des éléments d’un mémo CQL de Sophie Prévost pour le logiciel Weblex ainsi que du « mémo CQL » de Bénédicte Pincemin, 4 octobre 2012, Ateliers TXM.
7.20.1 Introduction
7.20.1.1 CQL, CQP
CQL est l’acronyme de Corpus Query Language, c’est un langage d’expression de requêtes. Une expression (ou équation) CQL est une chaîne de caractères exprimant un motif linguistique (un mot, ou une suite de mots) à partir des valeurs de leurs propriétés (comme la catégorie grammaticale, le lemme, la forme graphique).
CQP est l’acronyme de Corpus Query Processor, c’est un composant logiciel qui traite des requêtes : c’est un moteur de recherche qui permet de trouver toutes les occurrences correspondant à une équation CQL dans un corpus donné.
Le moteur CQP (Christ, Schulze, Hofmann, & Koenig, 1999) a été développé à l’origine à l’université de Stuttgart <http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench> et est désormais un logiciel libre <http://cwb.sourceforge.net>. Il est intégré à TXM où il assure les recherches d’occurrences de mots et de structures et, d’une façon générale, toutes les opérations de sélection à l’intérieur du corpus. Il a été choisi pour l’excellent rapport entre ses performances et la richesse d’expression des requêtes traitées.
7.20.1.2 Les requêtes dans TXM : requêtes simples, requêtes assistées, requêtes avancées
CQL est donc un langage formel, avec un lexique et une syntaxe d’opérateurs, qui forment un métalangage permettant de combiner des éléments pour la recherche de motifs structurés.
L’apprentissage du langage CQL n’est pas un passage obligé pour utiliser TXM, mais c’est en langage CQL qu’on a le mode d’expression de motifs le plus riche.
Si l’on saisit un mot dans la zone de requête, c’est interprété comme la recherche des mots présentant exactement cette graphie dans le corpus. Cela permet déjà un certain nombre de recherches simples. Mais on perçoit assez vite deux limites : d’une part, on reste à la « surface » du texte, on ne tire aucun parti des autres informations linguistiques encodées dans le corpus (lemme, catégorie grammaticale, etc). D’autre part, on est rivé à l’empan exact d’un mot : la formulation de la recherche ne peut se faire ni sur une partie du mot (son début par exemple), ni sur des expressions en plusieurs mots - alors que cela devient possible en utilisant CQL.
Le logiciel TXM comporte un assistant à l’écriture de requêtes, accessible via une icone « baguette magique » à gauche du champ de saisie de la requête. Cet assistant permet d’exprimer une recherche à l’aide de menus déroulants plus intuitifs si l’on est peu familier des langages de requête. En revanche, il ne permet pas d’exprimer autant de choses que le langage CQL, qui reste beaucoup plus souple et plus complet. La connaissance de CQL est donc utile pour avoir les possibilités d’expression les plus larges et les plus précises.
En pratique, on peut apprécier de combiner l’utilisation de l’assistant avec la connaissance du langage CQL. L’assistant peut faciliter l’écriture d’une première version de la requête. La connaissance de CQL permet ensuite de bien comprendre l’équation et de l’ajuster ou de l’affiner si nécessaire.
7.20.1.3 Dynamique de la construction d’une requête
Une requête se met au point : entre ce qu’on veut repérer (que l’on pense avoir exprimé dans la requête), et ce qu’on trouve effectivement dans le corpus, il y a souvent un écart qui demande à être corrigé. Il est de toutes façons toujours sage de vérifier la portée effective, dans le corpus choisi, de la requête utilisée, avant de l’utiliser pour un calcul statistique.
L’apprentissage et l’utilisation de CQL font donc un usage central de la fonctionnalité Index de TXM. La fonctionnalité Index permet de lister toutes les formes correspondant au motif dans le corpus. On peut les parcourir soit par importance quantitative décroissante (tri par fréquence décroissante, qui est la manière dont se présente le résultat par défaut), soit par ordre alphabétique, ce qui peut faciliter la lecture en regroupant les réalisations de forme proche.
Le parcours de cette liste des configurations trouvées met en évidence les formes indésirables ; en revanche il ne dit rien des formes qui seraient pertinentes mais qui, ne correspondant pas formellement à la requête, n’ont pas été repérées. Méthodiquement, on recommande donc toujours, quand on a un motif linguistique à rechercher, de commencer par l’exprimer de façon très ouverte, de veiller à minimiser les a priori qui pourraient être réducteurs. L’examen des occurrences correspondantes trouvées guide alors sur la manière d’ajouter alors peu à peu des contraintes permettant de cibler les formes pertinentes et d’écarter les formes non voulues.
7.20.1.4 Utilisation pédagogique des exemples
Les exemples ci-après ont été choisis pour illustrer les possibilités de CQL qui nous paraissent les plus utiles : il faut les soumettre à la fonctionnalité Index pour bien voir leur effet. Ils ont été conçus pour être lancés sur le corpus Voeux (http://sourceforge.net/projects/txm/files/corpora/voeux/voeux-bin-0.6.zip/download). Le corpus Discours est quelquefois utilisé en complément si nécessaire. Les exemples sur fond gris sont plus complexes et peuvent être ignorés dans un premier temps.
7.20.2 Recherche simple [niveau 1 (infralexical) : les valeurs]
7.20.2.1 Recherche d’un mot
bonheur |
Pour chercher un mot donné il suffit de saisir sa graphie. |
Vive la République. |
Pour chercher une séquence de mots ou de ponctuations on la saisit telle quelle.47. Cette requête est donc équivalente à la requête [word="Vive"] [word="la"] [word="République"] [word="\."] (voir plus bas) |
ami amiti |
Une partie d’un mot ne rapporte aucun résultat, l’expression doit correspondre à un mot entier attesté dans le corpus. |
| Trois façons équivalentes d’exprimer une recherche sur une graphie : | |
bonheur |
- la graphie telle quelle |
"bonheur" |
- la graphie entre guillemets doubles droits |
[word="bonheur"] |
- l’usage des crochets et du mot réservé « word ». Les moyens les plus verbeux montreront leur utilité dans des cas plus complexes. |
[word="parce que"] [word="bonheur"] |
Un blanc à l’intérieur des guillemets est significatif (partie intégrante de la graphie). Le guillemet doit être collé à la graphie cherchée (sans espace supplémentaire). |
[ word = "bonheur" ] |
Les blancs à l’extérieur des guillemets ne sont pas significatifs et peuvent être utilisés pour faciliter la lecture. |
7.20.2.2 Variantes d’écriture
"gouvernement"%c |
Neutralisation de la casse (majuscules/minuscules). Les guillemets sont obligatoires. |
"Etat"%d |
Neutralisation des signes diacritiques (accents, cédille, etc.). |
"franc.*"%cd |
Les deux neutralisations peuvent être cumulées. |
7.20.2.3 Troncature et joker
libertés? âgé?e?s? "premiere?s?"%d |
Le point d’interrogation porte sur le caractère qui précède et signifie qu’il est facultatif (0 ou 1 fois). Il peut se placer n’importe où. C’est utile notamment quand le corpus n’est pas lemmatisé, ou que la qualité de la lemmatisation est insuffisante. |
nation.* |
Point étoile à la fin = « mot qui commence par … » . Point = « un caractère, n’importe lequel ». |
.*patri.* |
Etoile = « 0 à n fois, n aussi grand qu’on veut ». Utile pour chercher un radical. |
.+patri.* |
Signe plus = « 1 à n fois ». Ici on impose qu’il y ait un préfixe. |
.*ables? in.*ables? |
Ces opérateurs se plaçant n’importe où, on peut chercher des mots partageant les mêmes affixes, le radical variant librement. |
"i[mn].*ables?" |
Les crochets sont pratiques pour indiquer l’ensemble des lettres possibles, une seule devant être choisie. |
.* |
Zéro à n caractères, n’importe lesquels. Cette expression attrape tous les mots. |
.* .* |
(dans Discours) Graphies incluant un blanc (au moins). |
. |
Mots formés d’un seul caractère. |
... |
Mots de longueur trois. |
7.20.2.5 Classes de caractères
.+\p{P} |
Mot terminé par une ponctuation : permet d’attraper aussi les apostrophes obliques (souvent originaires de Word et qu’on ne peut pas saisir facilement au clavier dans TXM). |
\p{Lu}+ |
Mot composé de majuscules (y compris diacritiques). Voir FAQ pour autres classes. |
7.20.2.6 Alternative
paix|guerre |
OU, alternative non exclusive. Élargit la recherche à des variantes de formulation. |
(inter|supra)nation.* |
Peut s’utiliser à l’intérieur du mot, avec des parenthèses pour délimiter sa portée. |
(inter|supra)?nation.* |
Des opérateurs de facultativité ou répétition peuvent porter sur la parenthèse. |
7.20.3 Recherche sur les propriétés [niveau 2 (lexical) : les propriétés]
7.20.3.1 Introduction
Jusqu’alors, les recherches effectuées portaient sur la forme graphique des mots, qui est enregistrée dans la propriété word : [word=“bonheur”] signifie qu’on recherche la valeur bonheur de la propriété word, correspondant à la forme graphique. Mais, lorsque le corpus est enrichi, les mots portent d’autres informations que leur seule graphie, sous la forme d’autre propriétés. Les requêtes peuvent alors porter sur d’autres propriétés des mots (et les combiner).
La graphie étant une propriété (presque) comme les autres, tout ce qu’on a vu dans la section précédente s’applique aux valeurs de propriété quelle que soit la propriété, sauf l’écriture simplifiée.
Pour interroger sur les propriétés il faut connaître leur nom et leurs valeurs. En effet, le nom des propriétés dépend de l’import du corpus : dans tel corpus la propriété qui enregistre le lemme est lemma, dans tel autre frlemme, dans tel autre encore ttlemme, etc. De même, les valeurs des catégories grammaticales dépendent du jeu d’étiquettes utilisé. Dans TXM en version locale, la fonction Description montre quelles propriétés sont disponibles et donne pour chacune d’elle un aperçu de quelques valeurs attestées (sur les premières occurrences du corpus). La fonction Lexique permet de lister exhaustivement les valeurs d’une propriété attestées dans le corpus. Dans la version locale, un double-clic sur une de ces valeurs permet de voir son usage en contexte (dans une concordance). Ceci étant il est utile d’avoir les tables descriptives des jeux de catégories utilisés pour le corpus sur lequel on travaille.
7.20.3.2 Recherche sur une propriété
[frlemma="beau"] [frlemma="faire"] |
Rechercher un lemme permet de désigner un mot sous ses formes (très) variables. Il faut expliciter sur quelle propriété on travaille, la formulation à crochets devient nécessaire. |
[frlemma="je"] |
Le lemme « je » recouvre ici ses formes élidées ou avec majuscule initiale. |
[frpos="ADV"] |
De même, on peut chercher sur d’autres propriétés, comme la catégorie grammaticale. |
[frpos="VER.*"] [frpos="NOM\|NAM\|VER.*\|ADJ"] |
La valeur que prend la propriété peut utiliser les mêmes opérateurs que précédemment, par ex. pour reconstruire des catégories en regroupant des étiquettes. |
[frlemma=".*\|.*"] |
Ici la barre verticale fait partie intégrante de l’étiquette (ambiguïtés latentes lors d’étiquetage TreeTagger_)._ |
7.20.3.3 Alternative (2)
[frpos="NAM|NOM"] |
Il y a plusieurs manières d’exprimer l’alternative, plus ou moins factorisées. |
[frpos="N(A|O)M"] |
La barre verticale est l’opérateur le plus général, sa portée peut être ciblée par des parenthèses. |
[frpos="N[AO]M"] |
Les crochets ne sont utilisables que pour une alternance sur un seul caractère, |
"[aeiouy]+" |
mais facilitent l’expression d’un large choix |
[pos=".*[1-3].*"] |
(dans Discours) ou d’une gamme. |
[pos="[^12]*"] |
(dans Discours) Le chapeau est une négation : ensemble des caractères interdits sur la position. |
[frpos="VER:(futu|cond|subi)"] |
Alternance sur des séquences de caractères (de longueurs identiques ou non) : seule la barre verticale est utilisable. |
7.20.3.4 Combinaison d’informations
[frlemma="pouvoir" & frpos="NOM"] |
Désambiguïsation catégorielle d’un lemme. |
[frpos="ADV" & word=".*ment"] |
Croisement d’une catégorie et d’un trait morphologique. |
[frlemma="liber.*"%d & frlemma!="libéral"] |
Exclusion de cas non souhaités. |
[frpos="NOM" & word!=".*\p{P}"] |
Post-taitement des erreurs de segmentation. |
[pos!="NA|pon" & pos!=fropos] |
(dans la BFM) Comparaison directe à une autre propriété. |
7.20.4 Recherche d’un motif de plusieurs mots [niveau 3 (supralexical) : séquences d’unités lexicales]
7.20.4.1 Succession de mots
[word="réduction"] [word="du"] [word="temps"] [word="de"] [word="travail"] |
Paire de crochets = mot. |
"réduction" "du" "temps" "de" "travail" [frlemma="réduction"] "du" "temps" "de" "travail" |
Notation allégée possible si l’on ne travaille que sur des graphies. Mélange possible. |
[frpos="NOM"] [frlemma="de"] [frpos="NOM"] |
Usage avec des catégories (patron). |
[frpos="NOM"] [frlemma="de"] [frlemma="le"]? [frpos="NOM"] |
|
[frpos="NOM"] ([frlemma="de"][frlemma="le"]|[frlemma="du"]) [frpos="NOM"] |
|
[frpos="DET.*"] [frpos="ADV"]? [frpos="ADJ"]+ [frlemma="année"] |
On retrouve à ce niveau 3 les opérateurs vus au niveau 1, pour gérer les variations.
7.20.4.2 Traitement des insertions
[frlemma="il"] [] [frlemma="y"] [frlemma="avoir"] |
Une unité lexicale quelconque (joker de mot). |
[frlemma="il"] []? [frlemma="y"] [frlemma="avoir"] |
Insertion facultative. |
[frlemma="il"] [] [] [] [frlemma="y"][frlemma="avoir"] |
Distance de trois unités lexicales. |
[frlemma="il"] []{0,3} [frlemma="y"] [frlemma="avoir"] |
Distance de zéro à trois. |
[frlemma="paix"] []{0,10} [frlemma="monde"] [frlemma="paix"] []* [frlemma="monde"] within 10 |
Distance de 0 à 10, deux formulations équivalentes. |
Si l’on utilise []* il faut absolument borner l’expansion.
[frlemma="je"] [frpos!="V.*"]* [frlemma="souhaiter"] [frpos!="V.*"]* [frlemma="année"] within 25 |
Distances avec mots exclus, contrôle davantage syntaxique. |
[lemma="je"] [pos!="V.*"]* [lemma="souhaiter"] [pos!="V.*"]* [lemma="année"] within s |
(dans Discours) Empan sur structure (si disponible) |
[lemma="République"] []* [lemma="France"] within 2s |
(dans Discours) Structure multipliée. |
7.20.4.3 Étude distributionnelle
[frlemma="très"] |
On prend un motif (contexte), et on rend variable une place, soit complètement librement, |
[frpos="NOM"] [frlemma="français"] |
soit avec une indication de catégorie. |
[frlemma="ne"] [frpos="VER.*"] |
Recherche des verbes avec négation. |
[frlemma="ne"] ([frpos!="VER.*|NOM|ADJ"]|[frlemma="être|avoir"])* [frpos="VER.*" & frlemma!="être|avoir"] within 10 |
Idem, plus affinée.
7.20.4.4 Alternatives
([word="président"%c] [] [] [word="république"%c] | [word="chef"%c] [] [] [word="état"%cd])
Expressions.
([frlemma="paix"] []* [frlemma="monde"] | [frlemma="monde"] []* [frlemma="paix"]) within 10
([frlemma="travail.*"] []* [frlemma="famil.*"] | [frlemma="famil.*"] []* [frlemma="travail.*"]) within 20
Cooccurrences.
7.20.4.5 Expansion
[word="France"] expand right to 3 |
Étendre le résultat de 3 mots à droite |
[word="France"] expand left to 3 |
Étendre le résultat de 3 mots à gauche |
[word="France"] expand to 3 |
Étendre le résultat de 3 mots à gauche et de 3 mots à droite |
[word="France"] expand to 2 s |
Étendre le résultat à trois phrases : celle contenant le match, la précédente et la suivante |
7.20.5 Informations contextuelles
7.20.5.1 Utilisation des structures
<s> [pos="V.*"] [frpos="V.*" & lbound(s)] |
(dans Discours) Verbes qui commencent une phrase. |
<s> [pos="V.*"] expand to s |
(dans Discours) Phrases qui commencent par un verbe. |
<s> []{1,5} </s> |
(dans Discours) Phrases d’au plus cinq mots. |
[pos="Vmsm.*"] expand to s |
(dans Discours) Phrases contenant un motif donné (ici subjonctif imparfait). |
7.20.5.2 Utilisation d’une propriété de structure
[word="Algérie" & _.text_loc!="dg"] |
« Algérie » dans un texte dont le locuteur n’est pas De Gaulle. |
<sp_speaker="P"> [frpos!="PRO:PER"]* [frpos="PROPER"] |
Le premier pronom personnel de chaque tour de parole du professeur d’une transcription de cours. |
7.20.5.3 Utilisation des positions de mots dans le corpus
[word="France" & _>99] |
Après le 100ème mot du corpus (les positions sont numérotées à partir de 0) |
[word=".*" & _=99] |
Le 100ème mot du corpus |
a:[word="France"] []{0,10} b:[frlemma="devoir" & frpos="V.*"] :: distance(a,b) > 2 [word="France"] []{0,10} [frlemma="devoir" & frpos="V.*"] :: distance(match, matchend) > 2 |
Mots distants d’au moins 2 mots |
7.20.6 Stratégies de résolution des opérateurs itérateurs ?, * et +
Le nombre d’occurrences « attrapées » par les opérateurs ?, * et + dépend
de la stratégie de résolution courante du moteur de recherche CQP. Par
exemple, pour la requête suivante[54] :
[enpos="DT"]? [enpos="JJ"]* [enpos="NN"] ([enpos="IN"] [enpos="DT"]? [enpos="JJ"]* [enpos="NN"])*
Avec le texte suivant à interroger :
the old book on the table in the room
Qui est étiqueté comme ceci par TreeTagger :
| word | enpos | enlemma |
|---|---|---|
| the | DT | the |
| old | JJ | old |
| book | NN | book |
| on | IN | on |
| the | DT | the |
| table | NN | table |
| in | IN | in |
| the | DT | the |
| room | NN | room |
On obtient les résultats suivants pour chaque stratégie :
- stratégie shortest : 3 matches
r1 = book
r2 = table
r3 = room
- stratégie longest : 1 match
r1 = the old book on the table in the room
- stratégie standard : 3 matches
r1 = the old book
r2 = the table
r3 = the room
- stratégie traditional : 7 matches recouvrants
r1 = the old book
r2 = old book
r3 = book
r4 = the table
r5 = table
r6 = the room
r7 = room
Remarque : Il est facile de reproduire soi-même dans TXM ces différents tests de stratégies de résolution, pour cela :
- faire un import Presse-Papier
- choisir la langue ‘EN’ pour la lemmatisation
- lancer l’outil Index sur le nouveau corpus
- coller la requête
[enpos="DT"]? [enpos="JJ"]* [enpos="NN"] ([enpos="IN"] [enpos="DT"]? [enpos="JJ"]* [enpos="NN"])*dans le champ de requête - et faire varier les stratégies de résolution dans les options du champ de requête
[v]:
Figure 7.27: Choix des stratégies de résolution CQP dans les options du champ de requête.
- coller la requête
La stratégie de résolution par défaut est la stratégie ‘standard’.
7.20.8 Liens d’alignement entre corpus parallèles
On dispose d’un corpus latin CorpusLAT aligné avec un corpus d’ancien français CorpusFRO (textes existant dans les deux langues, en relation de traduction). Les requêtes suivantes sont effectuées sur CorpusLAT.
[lemme="HIC"] :CorpusFRO [lemme="CIST"] |
Occurrences du lemme HIC pour lesquelles on trouve le lemme CIST dans le passage aligné en ancien français. |
[lemme="HIC"] :CorpusFRO ! [lemme="CIST"] |
Occurrences du lemme HIC pour lesquelles on ne trouve pas le lemme CIST dans le passage aligné en ancien français. |
[lemme="HIC"] expand to seg :CorpusFRO [lemme="CIST"] |
Segments contenant le lemme HIC et pour lesquels on trouve le lemme CIST dans le segment aligné en ancien français. |
[] expand to seg :CorpusFRO [lemme="CIST"] |
Segments latins alignés avec ceux contenant le lemme CIST en ancien français (construction d’un sous-corpus pour calcul de résonance). |
<seg> [lemme!="HIC"]* </seg> :CorpusFRO [lemme="CIST"] |
Segments ne contenant pas le lemme HIC et pour lesquels on trouve le lemme CIST dans le passage aligné en ancien français. |
7.20.9 Documentation complémentaire
Pour une description complète du langage de requêtes CQL, vous pouvez consulter (en Anglais) :
- Oliver Christ, Bruno M. Schulze, Anja Hofmann, and Esther König,
« The IMS Corpus Workbench : Corpus Query Processor (CQP), User’s
Manual », August 16, 1999 (CQP V2.2), University of Stuttgart ,
<http://corpora.dslo.unibo.it/TCORIS/cqpman.pdf>
[tutoriel original (en Anglais)] - <https://docs.google.com/document/d/1rz39LixYl6uegx35kIj6JLYbMPEOsy2ycg4JuCBZ68Y>
[liste exhaustive de tous les opérateurs CQL]
7.21 Syntaxe des requêtes CQL
La syntaxe des requêtes CQL est définie par 47 règles élémentaires se combinant entre elles ; en commençant par la première règle qui correspond au symbole non-terminal ‘Query’.
7.21.1 Règles
Chaque règle correspond à un symbole non-terminal dont le nom commence par une lettre majuscule.
Une règle exprime une structure de base de la syntaxe en combinant des éléments non-terminaux (qui correspondent à d’autres règles ou à elle même en cas de récursion) et des éléments terminaux.
Dans les représentations graphiques, elle est affichée dans un rectangle.
7.21.2 Terminaux
Les éléments terminaux expriment les caractères et symboles concrets utilisés pour écrire une requête.
Ils sont écrits littéralement entre guillemets simples (‘) ou double (“) selon la représentation.
Leur expression suit la syntaxe des expressions régulières.
La forme de factorisation particulière’{..}’ doit y être expansée par le contenu de la règle correspondante.
Dans les représentations graphiques, ils sont affichés dans des rectangles aux coins arrondis.
7.21.3 Représentations
Pour vous aider à appréhender l’ensemble de la syntaxe nous la présentons sous quatre formes complémentaires dans les sections suivantes :
- liste des règles :
- sous une forme textuelle au format W3C-EBNF (W3C Extended Backus–Naur Form : une variante du consortium W3C du format EBNF)
- sous une forme graphique d’automates48
- graphe des règles :
- sous la forme d’un graphe interactif : permet de naviguer dans les règles de la syntaxe graphiquement à l’aide de la souris49
- sous la forme d’un graphe complet : pour visualiser l’ensemble du graphe ou un sous-ensemble ; à l’écran ou pour impression
7.21.4 Syntaxe CQL au format W3C-EBNF
Dans la forme W3C-EBNF les itérations et les options d’éléments sont exprimées par des opérateurs de Kleene habituels : *, + et ? et les parenthèses (..) servent à préciser à quoi s’appliquent les itérations.
[1] Query ::= AQuery ( 'sort' SortClause? )?
[2] SortClause ::= 'by' Identifier Flags? ( 'on'? Anchor ( '..|...'? Anchor )? )? ( 'asc(ending)?'| 'desc(ending)?' )? 'reverse'?
[3] Identifier ::= '{Idletter}{XIdletter}*(:{XIdletter}+)?(^{XIdletter}+)?'
[4] Idletter ::= '[a-zA-Z_]'
[5] XIdletter ::= '[a-zA-Z0-9_\-\.]'
[6] Flags ::= '%[a-z]+'
[7] Anchor ::= 'match|matchend|target|collocate|keyword' ( '[' '[+-]?{Digits}' ']' )?
[8] Digits ::= '[0-9]+'
[9] AQuery ::= StandardQuery
| MUQuery
| TABQuery
[10] StandardQuery ::= SearchPattern AlignmentConstraints CutStatement '!'?
[11] SearchPattern ::= RegWordfExpr ( '::' BoolExpr )? SearchSpace
[12] RegWordfExpr ::= RegWordfTerm ( '|' RegWordfTerm )*
[13] RegWordfTerm ::= RegWordfFactor+
[14] RegWordfFactor ::= RegWordfPower ( '*'| '+'| '?'| '{' '[+-]?{Digits}' ( ',' '[+-]?{Digits}'? )? '}' )?
[15] RegWordfPower ::= '(' RegWordfExpr ')'
| NamedWfPattern
| XMLTag
| AnchorPoint
[16] NamedWfPattern ::= '@'? '{Identifier}:'? WordformPattern
[17] WordformPattern ::= ExtConstraint
| LookaheadConstraint
[18] ExtConstraint ::= String Flags?
| Var
| '[' BoolExpr ']'
| '[]'
[19] String ::= '\"(\\[^\n]|\"\"|[^"\n])*\"|\'(\\[^\n]|\'\'|[^'\n])*\''
[20] Var ::= '\${Letter}{XLetter}*'
[21] Letter ::= '[a-zA-Z_\x80-\xff]'
[22] XLetter ::= '[a-zA-Z0-9_\-\.\x80-\xff]'
[23] LookaheadConstraint ::= '[:' BoolExpr ':]'
| '[::]'
[24] AlignmentConstraints ::= ( ':' Identifier '!'? SearchPattern )*
[25] CutStatement ::= ( 'cut' '[+-]?{Digits}' )?
[26] Description ::= '[+-]?{Digits}'? Identifier
| '[+-]?{Digits}'
[27] BoolExpr ::= ( BoolExpr ( '->'| '|'| '&' )| '!' ) BoolExpr
| '(' BoolExpr ')'
| RelExpr
[28] RelExpr ::= RelLHS ( '=|!=|<|>|<=|>=' RelRHS| MvalOp String Flags? )?
[29] MvalOp ::= 'not'? ( 'contains'| 'matches' )
[30] RelLHS ::= '~'? ( '{Identifier}.{Identifier}'| Identifier )
| 'match|matchend|target|collocate|keyword'
| FunctionCall
[31] RelRHS ::= RelLHS
| ( String| 'RE(' Var ')' ) Flags?
| Var
| '[+-]?{Digits}'
| Floatconst
[32] Floatconst ::= '[+-]?{Digits}[\.]{Digits}{Exponent}?'
[33] Exponent ::= '[eE][+-]?{Digits}'
[34] FunctionCall ::= Identifier '(' SingleArg ( ',' SingleArg )* ')'
[35] SingleArg ::= RelRHS
[36] XMLTag ::= '<{Identifier}' ( RegexpOp String Flags? )? '>'
| '</{Identifier}>'
[37] AnchorPoint ::= '<match>|<matchend>|<target>|<collocate>|<keyword>'
| '</match>|</matchend>|</target>|</collocate>|</keyword>'
[38] RegexpOp ::= ( '='| '!='| MvalOp )?
[39] SearchSpace ::= ( 'within' ( 'left'| 'right' )? Description )?
[40] MUQuery ::= 'MU' MUStatement '!'? CutStatement
[41] MUStatement ::= MeetStatement
| UnionStatement
| WordformPattern
[42] MeetStatement ::= '(' 'meet' MUStatement MUStatement MeetContext ')'
[43] MeetContext ::= ( '[+-]?{Digits}' '[+-]?{Digits}'| Identifier )?
[44] UnionStatement ::= '(' 'union' MUStatement MUStatement ')'
[45] TABQuery ::= 'TAB' TabPatterns SearchSpace
[46] TabPatterns ::= NamedWfPattern ( OptDistance NamedWfPattern )*
[47] OptDistance ::= ( '{' ( '[+-]?{Digits}' ( ',' '[+-]?{Digits}'? )?| ',' '[+-]?{Digits}' ) '}' )?7.21.5 Syntaxe CQL sous forme d’automates
Dans cette représentation c’est le choix du chemin effectué depuis le point d’entrée ‘▶▶’ d’une règle jusqu’à son point de sortie ‘▶◀’ qui détermine comment elle est interprétée, y compris en suivant les boucles de répétition. Par exemple dans la règle 12 (RegWordfExpr) on peut suivre une boucle en passant par un caractère ‘|’.
no references
referenced by:
referenced by:
no references
no references
referenced by:
referenced by:
no references
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
no references
no references
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
no references
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
referenced by:
7.21.6 Syntaxe CQL sous forme d’un graphe interactif
Accéder à l’explorateur de la syntaxe CQL.
7.21.7 Syntaxe CQL sous forme de graphes complets
- format SVG (pour la lecture à l’écran)
- format PDF (pour l’impression, au moins en format A3 en mode paysage)
7.22 Syntaxe des expressions régulières
L’expression des chaines de caractères dans les requêtes CQL suit la syntaxe des expressions régulières PCRE (Perl-Compatible Regular Expressions). La syntaxe complète est décrite à la section « Specification of the regular expressions supported by PCRE » du manuel de PCRE : http://regexkit.sourceforge.net/Documentation/pcre/pcrepattern.html.
Voici un résumé en français des opérateurs les plus courants.
. |
matche n’importe quel caractère |
\ |
neutralise l’opérateur situé à droite |
| |
alternance |
() |
regroupement |
[…] |
classe de caractères entre crochets (eg « [aeiouy] » pour une voyelle, ou « [a-z] » pour n’importe quelle minuscule) |
[^…] |
ensemble complémentaire de la classe de caractères entre crochets, le caractère ^ joue le rôle de négation (eg « [^aeiouy] » pour un caractère qui n’est pas une voyelle) |
Tableau 2: Méta-caractères (ou Opérateurs)
? |
matche 0 ou 1 fois l’expression située à gauche |
* |
matche 0 fois ou plus |
+ |
matche 1 fois ou plus |
{n} |
matche n fois |
{n,} |
matche au moins n fois |
{n,m} |
matche entre n et m fois |
Tableau 3: Quantifieurs
\x{CC} |
caractère de valeur CC (exprimée en hexadécimal) (eg « \x{E9} »pour « é ») |
\xCC |
caractère de valeur CC (exprimée en hexadécimal) |
Tableau 4: Codes de caractères
\d |
un chiffre |
\D |
pas un chiffre |
\w |
un caractère de « mot » |
\W |
pas un caractère de « mot » |
\s |
un caractère d’espace |
\S |
pas un caractère d’espace |
\p{Classe} |
un caractère de la classe Unicode « Classe » (eg « \p{Lu} » pour un caractère majuscule) |
\P{Classe} |
pas un caractère de la classe Unicode « Classe » |
[[:ClassePOSIX:]] |
un caractère de la classe « ClassePOSIX » (eg « [[:upper:]] » pour un caractère majuscule) |
Tableau 5: Classes de caractères
\p{L} |
lettre |
\p{Ll} |
caractère minuscule |
\p{Lu} |
caractère majuscule |
\p{N} |
caractère numérique |
\p{Xan} |
caractère alphanumérique |
\p{Pd} |
caractère de tiret (eg « - », « — »…) |
\p{P} |
caractère de ponctuation (eg « , », « . »…) |
\p{Ps} |
caractère de ponctuation ouvrante (eg « ( ») |
\p{Pe} |
caractère de ponctuation fermante (eg « ) ») |
\p{Sm} |
caractère de symbole mathématique (eg « ~ ») |
\p{Cyrillic} |
caractère en alphabet russe |
\p{Arabic} |
caractère en alphabet arabe |
\p{Greek} |
caractère en alphabet grec |
Tableau 6: Classes Unicode courantes[55]
alpha |
caractère alphabétique (usage : ”[[:alpha:]]”) |
alnum |
caractère alphanumérique |
ascii |
caractère du code ASCII |
digit |
chiffre décimal |
graph |
caractère imprimable, sans l’espace |
lower |
caractère minuscule |
print |
caractère imprimable, incluant l’espace |
punct |
caractère de ponctuation |
space |
caractère d’espace |
upper |
caractère majuscule |
word |
caractère de mot |
xdigit |
chiffre hexadécimal |
Tableau 7: Classes POSIX courantes (système plus ancien et plus grossier que les classes Unicode)
7.22.0.0.0.1 Références de chaines mémorisés
\2contenu du premier groupe de parenthèses mémorisé (suppose la présence de parenthèses « ..(..).. » auparavant dans l’expression)\3contenu du deuxième groupe de parenthèses mémorisé…
\g{nom}contenu du groupe de parenthèses mémorisé nommé « nom » (suppose la présence de « ..(?<nom>..).. » auparavant dans l’expression)…
Exemples :
([[:lower:]])([[:lower:]]).*m.*\3\2: deux minuscules suivies de « m » suivi des deux premières minuscules en ordre inverse ;(.*)\2: une même chaine deux fois de suite(?<groupe1>.*)\g{groupe1}: une même chaine deux fois de suite
depuis TXM 0.8.2, les séquences de mots ne contenant pas de caractères «
"», «[» ou «]» (respectivement le guillemet droit double, le crochet ouvrant ou le crochet fermant) sont segmentées comme du texte brut (TXT) en fonction de la langue du corpus pour déterminer les mots à chercher, facilitant la recherche par copié/coller de texte.↩︎produite à l’aide du logiciel RR - Railroad Diagram Generator↩︎
produit à l’aide du logiciel EBNF Railroad Diagram Visualizer↩︎
» : page précédente ;
» : page suivante ;
» : dernière page.
» : page précédente ;
» : page suivante ;
» : dernière page.