15 Glossaire

Définition des notions essentielles de la textométrie et de TXM.

Les définitions sont organisées en catégories :

  • out : Outils
  • don : Modèle de Données
  • for : Format de Fichier
  • int : Interface Utilisateur
  • tal : Traitement Automatique de la Langue (TAL)
  • req : Requête CQL
  • log : Composant Logiciel
  • mét : Méthodologie Textométrique
Entrée Cat Description
AFC out action de réduire le nombre de dimensions des vecteurs représentant les unités textuelles d’une table lexicale (prise comme une matrice de type « parties x mots ») avec l’algorithme d’Analyse Factorielle des Correspondances. Les nouvelles dimensions, en nombre beaucoup plus réduit, sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants.
AFR tal code de langue standard pour l’ancien français.
Alceste log logiciel commercial de textométrie.
annotation don propriété d’une unité (lexicale ou structurelle) d’un point de vue logique.
annotation mét action d’associer des propriétés à une séquence de mots
balise don représentation bornée d’un élément, qui contient ses propriétés, en langage XML
caractère don unité élémentaire constituant la forme graphique d’un mot.
CATTEX2009 tal jeu d’étiquettes morphosyntaxiques pour l’ancien français.
module d’importation out composant logiciel qui importe des éléments dans la plateforme TXM, depuis des fichiers source.
Presse-papierN int corpus créés à partir du presse-papier sont nommés ‘Presse-papier’+<un numéro>.
CAH out action de regrouper les vecteurs représentant les unités textuelles d’une table lexicale à l’aide d’une métrique (ou distance) avec l’algorithme de Classification Ascendante Hiérarchique.
CNR for format de données de sortie du logiciel Cordial.
commande out outil disponible dans TXM.
concordance out manière de présenter les résultats d’une recherche, où toutes les occurrences apparaissent centrées verticalement, au milieu de leur contexte.
console int TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ».
Cordial tal étiqueteur morphosyntaxique et lemmatiseur commercial.
corpus don ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires.
CQL req pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus.
CQP log pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc.
CSV for signifie « Comma Separated Values ». Format de fichier texte où chaque ligne est séparée par un saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule). Extension ‘.csv’
Ctrl int touche « Ctrl » ou « Control » sur le clavier.
document don texte logique.
dossier don dossier contenant des fichiers ou d’autres dossiers, sur le disque dur de l’utilisateur. Un dossier peut être désigné par un chemin.
éditeur out fenêtre où un texte (comme un fichier source ou un script) peut être modifié.
édition out représentation d’un texte formatée pour la lecture.
encodage don façon dont une information est représentée dans le corpus source.
espace de travail int ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus…).
étiqueteur log logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme.
étiquette tal propriété morphosyntaxique d’un mot
export out action d’enregistrer dans un fichier les résultats d’un outil de TXM.
f met le nombre total (ou f-réquence) des occurrences d’une requête CQL dans une partie de partition ou un sous-corpus.
F met le nombre total (ou F-réquence) des occurrences d’une requête CQL dans un corpus
fichier don élément du système d’exploitation contenant des informations sur le disque dur de l’utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d’accès.
focus int focaliser un outil sur un événement lexical particulier, par exemple à travers une requête.
forme graphique don forme graphique d’un mot, généralement calculée par les tokeniseurs.
format don convention de représentation d’informations dans un fichier. Par exemple, le format texte brut représente les textes sous forme de séquences de caractères.
fréquence mét nombre total d’occurrences d’un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus.
Groovy log langage informatique dans lequel les scripts de TXM sont écrits. Analogue à Python ou à Javascript mais pouvant exécuter du Java.
HTML for format de représentation des données des pages web.
Hyperbase log logiciel académique de textométrie.
import don fait d’intégrer un corpus à la plateforme, à partir de fichiers source.
index out lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d’une requête.
index log fichier créé par TXM afin d’accélérer les réponses aux requêtes.
indice tal valeur numérique fournie pour un modèle statistique.
infobulle int fenêtre temporaire qui s’affiche lorsqu’on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition.
IRaMuTeQ log pour Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, logiciel de textométrie open-source
Java log langage dans lequel est programmé TXM.
jeu d’étiquettes don ensemble des valeurs morphosyntaxiques possibles de mots.
langage don langage dans lequel est écrit un texte ou un corpus.
lem don voir lemme.
lemme don entrée d’un mot dans le dictionnaire courant. Le lemme condense toutes les formes fléchies du mot réalisé en discours (exemple, le lemme ‘aimer’ pour les différentes réalisations ‘aime’, ‘aimes’, ‘aiment’, ‘aimais’, ‘aimait’, ‘aimaient’, etc.). Un mot d’un texte peut être annoté par son lemme.
lemmatiseur log module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte
lexique out lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus.
Lexploreur log ancien logiciel de textométrie académique.
ligne de statut log TXM affiche des commentaires temporaires sur les opérations qu’il effectue, dans un espace situé en bas à gauche de l’interface.
littéral req caractère considéré pour lui-même dans une requête.
localisation int l’interface de TXM peut s’afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences.
logiciel log fichier dont l’exécution produit une action interactive (par le biais d’une interface utilisateur) ou non.
match tal correspondance structurelle dans l’algèbre des caractères de propriétés ou des occurrences
métadonnées don propriétés d’un texte ou d’un document entiers. Chaque métadonnée a un nom, un type et une valeur.
modifieur req caractère spécial utilisé pour exprimer certaines variantes dans une requête.
mot don unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots d’un texte. Elle est généralement construite par les tokeniseurs et peut être annotée par des outils de TAL avec une partie du discours ou bien un lemme. Elle est appelée dans certains contextes ‘token’.
mot simple don mot composé d’un seul token.
mot composé don mot composé de plusieurs tokens.
Multext tal ancien jeu d’étiquettes morphosyntaxiques standard européen.
occurrence mét apparition d’un événement textuel dans un corpus, comme une occurrence d’une unité lexicale ou d’un mot.
ODS for format de fichier des tableurs Libre Office Calc. Extension ‘.ods’
ODT for format de fichier des documents Libre Office Writer. Extension ‘.odt’
opérateur req caractère spécial ayant une signification particulière dans une requête.
page don segment de texte affiché sur un support (écran ou papier), correspondant généralement à une page d’une édition papier.
partie don élément d’une partition d’un corpus.
partition don découpage d’un corpus ou d’un sous-corpus en différentes parties exclusives. La somme de toutes ces parties correspond au corpus dans son ensemble. Les parties représentent des unités textuelles (textes, chapitres…) ou bien des valeurs (ou domaines) de propriétés d’unités textuelles (genre textuel, nom d’auteur, année d’édition, sexe ou âge d’auteur ou de locuteur de prise de parole, numéro de chapitre…). On utilise les partitions par le biais des tables lexicales pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d’un même texte, etc.).
phrase tal séquence de mots séparée par des ponctuations fortes (‘.’, ‘!’, etc.), construite par les tokeniseurs (phrase orthographique).
phrase tal séquence de mots organisés par une structure syntaxique, en général autour d’un verbe, construite par les parseurs (phrase syntaxique).
pivot out colonne centrale d’une concordance, affichant toutes les occurrences d’une requête donnée.
PDF for format de fichier des graphiques vectoriels ou des documents sources. Extension ‘.pdf’
plateforme log les logiciels TXM pour poste et portail TXM sont implémentés à partir d’une unique plateforme.
PNG for format de fichier des graphiques bitmaps compressés sans perte. Extension ‘.png’
portail log logiciel s’exécutant sur un serveur et accédé par le biais d’un navigateur Internet.
pos don pour « part of speech » (partie du discours), les catégories grammaticales ou informations morphosyntaxiques d’un mot. Un mot d’un texte peut être annoté par sa pos.
JPG for format de fichier des graphiques bitmaps compressés avec perte. Extension ‘.jpg’
préférence int chaque outil de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ».
presse-papier don fonction du système d’exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ».
propriété don information sur une unité lexicale ou structurelle.
référence int information affichée au début d’une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles.
requête out chaine de caractères exprimant une combinaison de mots et de propriétés de mots.
script log fichier contenant une description d’actions précises qui peut être exécutée par TXM.
sélection mét liste de séquences de mots. Le résultat d’une recherche pour une requête est une sélection.
source don représentation initiale d’un corpus, dans un format particulier, contenue dans plusieurs fichiers ou dossiers. Par exemple, le format peut être du texte brut (.txt), du XML ‘.xml’ ou de la TEI (.xml-tei).
sous-corpus don sous-ensemble de mots.
spécificité out action de lister les unités lexicales spécifiques à chaque partie d’une partition, conformément au modèle quantitatif des spécificités basé sur les quatre paramètres (f, F, t, T).
SVG for format de fichier des graphiques vectoriels. Extension ‘.svg’
t met le nombre total d’occurrences d’un sous-corpus, comme une partie de partition
T met le nombre total d’occurrences dans un corpus
table lexicale out tableau de contingence composé de la ventilation des décomptes d’unités lexicales au sein des différentes parties d’une partition d’un corpus. Les tables lexicales forment la représentation vectorielle des unités textuelles de la textométrie.
TAL log pour « Traitement Automatique de la Langue ».
TEI for pour « Text Encoding Initiative », standard d’encodage des textes. Consortium international de standardisation de l’encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML.
texte don séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées.
textométrie mét méthodologie qu’applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d’outils quantitatif et qualitatifs. Voir https://www.textometrie.org.
token don nom donné aux mots ou aux unités lexicales dans certains contextes techniques. Un token se caractérise surtout par sa position dans la séquence des tokens et moins par ses propriétés linguistiques. Les tokens correspondent en général aux mots simples.
tokeniseur log composant logiciel capable de séparer les mots dans les fichiers source et de les caractériser par des propriétés. Le résultat d’un tokeniseur appliqué à un texte est une séquence de tokens.
TreeTagger log logiciel étiqueteur-lemmatiseur universitaire non open-source
TXM for format de fichier des corpus TXM. Extension ‘.txm’
TXT for format de données d’un fichier en texte brut (sans aucune annotation). Extension ‘.txt’
UD don Universal Dependencies. Convention de représentation des relations syntaxiques dépendantielles entre mots des phrases d’un texte.
unité don unité lexicale ou structurelle d’un texte.
unité lexicale don élément de la séquence des mots d’un texte. Dans TXM les unités lexicales sont construites à la demande dans chaque outil par une combinaison d’une sélection par requête CQL et d’une projection sur les différentes propriétés de mots. Par exemple, tous les lemmes des verbes à l’imparfait : requête [frpos=“VER:impf”], projection sur ‘frlemma’.
unité structurelle don élément contenant représentant une structure logique d’un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu’à l’unité ‘text’. La plus petite unité structurelle se trouve juste au-dessus de l’unité lexicale.
v mét nombre total de formes graphiques différentes d’un sous-corpus, comme une partie de partition.
V mét nombre total de formes graphiques différentes d’un corpus.
vocabulaire out générer un lexique ou un index.
Weblex log ancien logiciel de textométrie académique.
window manager int logiciel qui permet d’organiser les différentes fenêtres de son interface de travail.
WORD for format de fichier des documents MS Word. Extension ‘.docx’
XLSX for format de fichier des tableurs MS Excel. Extension ‘.xlsx’
XML for format de données principal des sources des corpus.