15 Glossaire
Définition des notions essentielles de la textométrie et de TXM.
Les définitions sont organisées en catégories :
- out : Outils
- don : Modèle de Données
- for : Format de Fichier
- int : Interface Utilisateur
- tal : Traitement Automatique de la Langue (TAL)
- req : Requête CQL
- log : Composant Logiciel
- mét : Méthodologie Textométrique
| Entrée | Cat | Description |
| AFC | out | action de réduire le nombre de dimensions des vecteurs représentant les unités textuelles d’une table lexicale (prise comme une matrice de type « parties x mots ») avec l’algorithme d’Analyse Factorielle des Correspondances. Les nouvelles dimensions, en nombre beaucoup plus réduit, sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants. |
| AFR | tal | code de langue standard pour l’ancien français. |
| Alceste | log | logiciel commercial de textométrie. |
| annotation | don | propriété d’une unité (lexicale ou structurelle) d’un point de vue logique. |
| annotation | mét | action d’associer des propriétés à une séquence de mots |
| balise | don | représentation bornée d’un élément, qui contient ses propriétés, en langage XML |
| caractère | don | unité élémentaire constituant la forme graphique d’un mot. |
| CATTEX2009 | tal | jeu d’étiquettes morphosyntaxiques pour l’ancien français. |
| module d’importation | out | composant logiciel qui importe des éléments dans la plateforme TXM, depuis des fichiers source. |
| Presse-papierN | int | corpus créés à partir du presse-papier sont nommés ‘Presse-papier’+<un numéro>. |
| CAH | out | action de regrouper les vecteurs représentant les unités textuelles d’une table lexicale à l’aide d’une métrique (ou distance) avec l’algorithme de Classification Ascendante Hiérarchique. |
| CNR | for | format de données de sortie du logiciel Cordial. |
| commande | out | outil disponible dans TXM. |
| concordance | out | manière de présenter les résultats d’une recherche, où toutes les occurrences apparaissent centrées verticalement, au milieu de leur contexte. |
| console | int | TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ». |
| Cordial | tal | étiqueteur morphosyntaxique et lemmatiseur commercial. |
| corpus | don | ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires. |
| CQL | req | pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus. |
| CQP | log | pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc. |
| CSV | for | signifie « Comma Separated Values ». Format de fichier texte où chaque ligne est séparée par un saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule). Extension ‘.csv’ |
| Ctrl | int | touche « Ctrl » ou « Control » sur le clavier. |
| document | don | texte logique. |
| dossier | don | dossier contenant des fichiers ou d’autres dossiers, sur le disque dur de l’utilisateur. Un dossier peut être désigné par un chemin. |
| éditeur | out | fenêtre où un texte (comme un fichier source ou un script) peut être modifié. |
| édition | out | représentation d’un texte formatée pour la lecture. |
| encodage | don | façon dont une information est représentée dans le corpus source. |
| espace de travail | int | ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus…). |
| étiqueteur | log | logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme. |
| étiquette | tal | propriété morphosyntaxique d’un mot |
| export | out | action d’enregistrer dans un fichier les résultats d’un outil de TXM. |
| f | met | le nombre total (ou f-réquence) des occurrences d’une requête CQL dans une partie de partition ou un sous-corpus. |
| F | met | le nombre total (ou F-réquence) des occurrences d’une requête CQL dans un corpus |
| fichier | don | élément du système d’exploitation contenant des informations sur le disque dur de l’utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d’accès. |
| focus | int | focaliser un outil sur un événement lexical particulier, par exemple à travers une requête. |
| forme graphique | don | forme graphique d’un mot, généralement calculée par les tokeniseurs. |
| format | don | convention de représentation d’informations dans un fichier. Par exemple, le format texte brut représente les textes sous forme de séquences de caractères. |
| fréquence | mét | nombre total d’occurrences d’un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus. |
| Groovy | log | langage informatique dans lequel les scripts de TXM sont écrits. Analogue à Python ou à Javascript mais pouvant exécuter du Java. |
| HTML | for | format de représentation des données des pages web. |
| Hyperbase | log | logiciel académique de textométrie. |
| import | don | fait d’intégrer un corpus à la plateforme, à partir de fichiers source. |
| index | out | lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d’une requête. |
| index | log | fichier créé par TXM afin d’accélérer les réponses aux requêtes. |
| indice | tal | valeur numérique fournie pour un modèle statistique. |
| infobulle | int | fenêtre temporaire qui s’affiche lorsqu’on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition. |
| IRaMuTeQ | log | pour Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, logiciel de textométrie open-source |
| Java | log | langage dans lequel est programmé TXM. |
| jeu d’étiquettes | don | ensemble des valeurs morphosyntaxiques possibles de mots. |
| langage | don | langage dans lequel est écrit un texte ou un corpus. |
| lem | don | voir lemme. |
| lemme | don | entrée d’un mot dans le dictionnaire courant. Le lemme condense toutes les formes fléchies du mot réalisé en discours (exemple, le lemme ‘aimer’ pour les différentes réalisations ‘aime’, ‘aimes’, ‘aiment’, ‘aimais’, ‘aimait’, ‘aimaient’, etc.). Un mot d’un texte peut être annoté par son lemme. |
| lemmatiseur | log | module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte |
| lexique | out | lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus. |
| Lexploreur | log | ancien logiciel de textométrie académique. |
| ligne de statut | log | TXM affiche des commentaires temporaires sur les opérations qu’il effectue, dans un espace situé en bas à gauche de l’interface. |
| littéral | req | caractère considéré pour lui-même dans une requête. |
| localisation | int | l’interface de TXM peut s’afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences. |
| logiciel | log | fichier dont l’exécution produit une action interactive (par le biais d’une interface utilisateur) ou non. |
| match | tal | correspondance structurelle dans l’algèbre des caractères de propriétés ou des occurrences |
| métadonnées | don | propriétés d’un texte ou d’un document entiers. Chaque métadonnée a un nom, un type et une valeur. |
| modifieur | req | caractère spécial utilisé pour exprimer certaines variantes dans une requête. |
| mot | don | unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots d’un texte. Elle est généralement construite par les tokeniseurs et peut être annotée par des outils de TAL avec une partie du discours ou bien un lemme. Elle est appelée dans certains contextes ‘token’. |
| mot simple | don | mot composé d’un seul token. |
| mot composé | don | mot composé de plusieurs tokens. |
| Multext | tal | ancien jeu d’étiquettes morphosyntaxiques standard européen. |
| occurrence | mét | apparition d’un événement textuel dans un corpus, comme une occurrence d’une unité lexicale ou d’un mot. |
| ODS | for | format de fichier des tableurs Libre Office Calc. Extension ‘.ods’ |
| ODT | for | format de fichier des documents Libre Office Writer. Extension ‘.odt’ |
| opérateur | req | caractère spécial ayant une signification particulière dans une requête. |
| page | don | segment de texte affiché sur un support (écran ou papier), correspondant généralement à une page d’une édition papier. |
| partie | don | élément d’une partition d’un corpus. |
| partition | don | découpage d’un corpus ou d’un sous-corpus en différentes parties exclusives. La somme de toutes ces parties correspond au corpus dans son ensemble. Les parties représentent des unités textuelles (textes, chapitres…) ou bien des valeurs (ou domaines) de propriétés d’unités textuelles (genre textuel, nom d’auteur, année d’édition, sexe ou âge d’auteur ou de locuteur de prise de parole, numéro de chapitre…). On utilise les partitions par le biais des tables lexicales pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d’un même texte, etc.). |
| phrase | tal | séquence de mots séparée par des ponctuations fortes (‘.’, ‘!’, etc.), construite par les tokeniseurs (phrase orthographique). |
| phrase | tal | séquence de mots organisés par une structure syntaxique, en général autour d’un verbe, construite par les parseurs (phrase syntaxique). |
| pivot | out | colonne centrale d’une concordance, affichant toutes les occurrences d’une requête donnée. |
| for | format de fichier des graphiques vectoriels ou des documents sources. Extension ‘.pdf’ | |
| plateforme | log | les logiciels TXM pour poste et portail TXM sont implémentés à partir d’une unique plateforme. |
| PNG | for | format de fichier des graphiques bitmaps compressés sans perte. Extension ‘.png’ |
| portail | log | logiciel s’exécutant sur un serveur et accédé par le biais d’un navigateur Internet. |
| pos | don | pour « part of speech » (partie du discours), les catégories grammaticales ou informations morphosyntaxiques d’un mot. Un mot d’un texte peut être annoté par sa pos. |
| JPG | for | format de fichier des graphiques bitmaps compressés avec perte. Extension ‘.jpg’ |
| préférence | int | chaque outil de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ». |
| presse-papier | don | fonction du système d’exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ». |
| propriété | don | information sur une unité lexicale ou structurelle. |
| référence | int | information affichée au début d’une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles. |
| requête | out | chaine de caractères exprimant une combinaison de mots et de propriétés de mots. |
| script | log | fichier contenant une description d’actions précises qui peut être exécutée par TXM. |
| sélection | mét | liste de séquences de mots. Le résultat d’une recherche pour une requête est une sélection. |
| source | don | représentation initiale d’un corpus, dans un format particulier, contenue dans plusieurs fichiers ou dossiers. Par exemple, le format peut être du texte brut (.txt), du XML ‘.xml’ ou de la TEI (.xml-tei). |
| sous-corpus | don | sous-ensemble de mots. |
| spécificité | out | action de lister les unités lexicales spécifiques à chaque partie d’une partition, conformément au modèle quantitatif des spécificités basé sur les quatre paramètres (f, F, t, T). |
| SVG | for | format de fichier des graphiques vectoriels. Extension ‘.svg’ |
| t | met | le nombre total d’occurrences d’un sous-corpus, comme une partie de partition |
| T | met | le nombre total d’occurrences dans un corpus |
| table lexicale | out | tableau de contingence composé de la ventilation des décomptes d’unités lexicales au sein des différentes parties d’une partition d’un corpus. Les tables lexicales forment la représentation vectorielle des unités textuelles de la textométrie. |
| TAL | log | pour « Traitement Automatique de la Langue ». |
| TEI | for | pour « Text Encoding Initiative », standard d’encodage des textes. Consortium international de standardisation de l’encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML. |
| texte | don | séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées. |
| textométrie | mét | méthodologie qu’applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d’outils quantitatif et qualitatifs. Voir https://www.textometrie.org. |
| token | don | nom donné aux mots ou aux unités lexicales dans certains contextes techniques. Un token se caractérise surtout par sa position dans la séquence des tokens et moins par ses propriétés linguistiques. Les tokens correspondent en général aux mots simples. |
| tokeniseur | log | composant logiciel capable de séparer les mots dans les fichiers source et de les caractériser par des propriétés. Le résultat d’un tokeniseur appliqué à un texte est une séquence de tokens. |
| TreeTagger | log | logiciel étiqueteur-lemmatiseur universitaire non open-source |
| TXM | for | format de fichier des corpus TXM. Extension ‘.txm’ |
| TXT | for | format de données d’un fichier en texte brut (sans aucune annotation). Extension ‘.txt’ |
| UD | don | Universal Dependencies. Convention de représentation des relations syntaxiques dépendantielles entre mots des phrases d’un texte. |
| unité | don | unité lexicale ou structurelle d’un texte. |
| unité lexicale | don | élément de la séquence des mots d’un texte. Dans TXM les unités lexicales sont construites à la demande dans chaque outil par une combinaison d’une sélection par requête CQL et d’une projection sur les différentes propriétés de mots. Par exemple, tous les lemmes des verbes à l’imparfait : requête [frpos=“VER:impf”], projection sur ‘frlemma’. |
| unité structurelle | don | élément contenant représentant une structure logique d’un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu’à l’unité ‘text’. La plus petite unité structurelle se trouve juste au-dessus de l’unité lexicale. |
| v | mét | nombre total de formes graphiques différentes d’un sous-corpus, comme une partie de partition. |
| V | mét | nombre total de formes graphiques différentes d’un corpus. |
| vocabulaire | out | générer un lexique ou un index. |
| Weblex | log | ancien logiciel de textométrie académique. |
| window manager | int | logiciel qui permet d’organiser les différentes fenêtres de son interface de travail. |
| WORD | for | format de fichier des documents MS Word. Extension ‘.docx’ |
| XLSX | for | format de fichier des tableurs MS Excel. Extension ‘.xlsx’ |
| XML | for | format de données principal des sources des corpus. |