19 Glossaire
Définition des notions essentielles de la textométrie et de TXM.
Catégories :
-
com : Commande
-
don : Modèle de données
-
for : Format de fichier
-
int : Interface utilisateur
-
tal : Traitement Automatique de la Langue (TAL)
-
log : Composant logiciel
-
mét : Méthodologie Textométrique
Entrée |
Cat |
Description |
AFC |
com |
action de réduire le nombre de dimensions d'une matrice (de type « parties x mots ») avec l'algorithme d'analyse factorielle des correspondances. Les nouvelles dimensions sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants. |
AFR |
tal |
code standard pour l'ancien français. |
Alceste |
log |
logiciel commercial textométrie. |
annotation |
don |
propriété d'une unité (lexicale ou structurelle) d'un point de vue logique. |
balise |
don |
représentation bornée d'un élément, qui contient ses propriétés, en langage XML |
caractère |
don |
unité élémentaire constituant la forme d'un mot. |
CATTEX2009 |
tal |
jeu d'étiquettes morphosyntaxiques pour l'ancien français. |
module d'importation |
com |
composant logiciel qui importe des éléments dans la plateforme TXM, depuis une source. |
ClipN |
int |
corpus créés à partir du presse-papier sont nommés 'Clip'+<un numéro>. |
CNR |
for |
format de données de Cordial. |
commande |
com |
action disponible dans TXM. |
concordance |
com |
manière de présenter les résultats d'une recherche, où chaque occurrence apparaît centrée sur sa propre ligne, au milieu de son contexte. |
console |
int |
TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ». |
Cordial |
tal |
étiqueteur morphosyntaxique et lemmatiseur commercial. |
corpus |
don |
ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires. Les corpus « racines » sont construits à partir de bases. |
CQL |
req |
pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus. |
CQP |
log |
pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc. |
CSV |
for |
signifie « Comma Separated Values ». C'est un fichier texte où chaque ligne de résultat est séparée par saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule). |
Ctrl |
int |
touche « Ctrl » ou « Control » sur le clavier. |
document |
don |
texte logique. |
éditeur |
com |
fenêtre où un texte (comme un fichier source ou un script) peut être modifié. |
encodage |
don |
façon dont une information est représentée dans le corpus source. |
espace de travail |
int |
ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus...). |
étiqueteur |
log |
logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme, à partir de sources textuelles. |
étiquette |
tal |
propriété morphosyntaxique d'un mot |
export |
com |
action d'enregistrer dans un fichier les résultats d'une commande TXM. |
fichier |
don |
élément du système d'exploitation contenant des informations sur le disque dur de l'utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d'accès. |
focus |
int |
focaliser une commande sur un événement lexical particulier, par exemple à travers une requête. |
forme graphique |
don |
forme graphique d'un mot, généralement calculée par les tokeniseurs. |
fréquence |
mét |
nombre total d'occurrences d'un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus. |
Groovy |
log |
langage informatique dans lequel les scripts de TXM sont écrits. |
HTML |
for |
format de représentation des données des pages web. |
Hyperbase |
log |
logiciel académique de textométrie. |
import |
don |
fait d'intégrer un corpus à la plateforme, à partir de fichiers source. |
index |
com |
lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d'une requête. |
index |
log |
fichier créé par TXM afin d'accélérer les réponses aux requêtes. |
indice |
tal |
valeur numérique fournie pour un modèle statistique. |
infobulle |
int |
fenêtre temporaire qui s'affiche lorsqu'on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition. |
Java |
log |
langage dans lequel est programmé TXM. |
jeu d'étiquettes |
don |
ensemble des valeurs morphosyntaxiques possibles de mots. |
langage |
don |
langage dans lequel est écrit un texte ou un corpus. |
lem |
don |
voir lemme. |
lemme |
don |
entrée d'un mot dans le dictionnaire courant. |
lemmatiseur |
log |
module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte |
lexique |
com |
lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus. |
ligne de statut |
log |
TXM affiche des commentaires temporaires sur les opérations qu'il effectue, dans un espace situé en bas à gauche de l'interface. |
littéral |
req |
caractère considéré pour lui-même dans une requête. |
localisation |
int |
l'interface de TXM peut s'afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences. |
matcher |
tal |
correspondance structurelle dans l'algèbre des caractères de propriétés ou des occurrences |
metadonnées |
don |
propriétés d'un texte ou d'un document entiers. Chaque métadonnée a un nom, un type et une valeur. |
modifieur |
req |
caractère spécial utilisé pour exprimer certaines variantes dans une requête. |
mot |
don |
unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots. Elle est généralement construite par les tokeniseurs. |
Multext |
tal |
jeu d'étiquettes standard européen. |
occurrence |
mét |
apparition d'un événement textuel dans un corpus, comme une occurrence de mot. |
opérateur |
req |
caractère spécial ayant une signification particulière dans une requête. |
page |
don |
segment de texte affiché sur un support, correspondant généralement à une page d'une édition papier. |
partie |
don |
élément d'une partition d'un corpus. |
partition |
don |
découpage d'un corpus en différentes parties. La somme de toutes ces parties correspond au corpus dans son ensemble. On utilise les partitions pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d'un même texte, etc.) |
phrase |
tal |
séquence de mots, syntaxiquement homogène, construite par les tokeniseurs. |
pivot |
com |
colonne centrale d'une concordance, affichant toutes les occurrences d'une requête donnée. |
pos |
don |
pour « part of speech », les informations morphosyntaxiques d'un mot. |
préférence |
int |
chaque commande de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ». |
presse-papier |
don |
fonction du système d'exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ». |
propriété |
don |
information sur une unité lexicale ou structurelle. |
référence |
int |
information affichée au début d'une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles. |
dossier |
don |
dossier contenant des fichiers ou d'autres dossiers, sur le disque dur de l'utilisateur. Un dossier peut être désigné par un chemin. |
requête |
com |
chaine de caractères exprimant une combinaison de mots et de propriétés de mots. |
script |
log |
fichier contenant une description d'actions précises qui peut être exécutée par TXM. |
sélection |
mét |
liste de séquences de mots. Le résultat d'une recherche pour une requête est une sélection. |
source |
don |
représentation initiale d'un corpus, dans un format propre, contenue dans plusieurs fichiers ou dossiers. Par exemple, le format peut être du TXT (texte brut), du XML ou de la TEI. |
spécificité |
com |
action de lister des formes de mots spécifiques, ou des propriétés de mot, à chaque partie d'une partition, conformément au modèle quantitatif des spécificités. |
T |
met |
le nombre total d'occurrences dans un corpus |
TAL |
log |
pour « Traitement Automatique de la Langue ». |
TEI |
for |
pour « Text Encoding Initiative », la façon standard d'encoder les textes. Consortium international de standardisation de l'encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML. |
texte |
don |
séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées. |
textométrie |
mét |
méthodologie qu'applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d'outils quantitatif et qualitatifs. Voir http://textometrie.ens-lyon.fr. |
tokeniseur |
log |
composant logiciel capable de séparer les mots et de les caractériser par des propriétés, dans les fichiers source. |
TreeTagger |
log |
logiciel étiqueteur indépendant académique |
TXT |
for |
format de données d'un fichier en texte brut (sans aucune annotation). |
unité |
don |
unité lexicale ou structurelle d'un texte. |
unité structurelle |
don |
élément marquant la structure logique d'un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu'à l'unité 'text'. La plus petite unité structurelle se trouve juste au-dessus de l'unité lexicale. |
V |
mét |
nombre total de formes graphiques différentes d'un corpus. |
vocabulaire |
com |
générer un lexique ou un index. |
Weblex |
log |
logiciel de textométrie académique. |
window manager |
int |
logiciel qui permet d'organiser son interface de travail. |
XML |
for |
format de données principal des sources des corpus. |