19 Glossaire

Définition des notions essentielles de la textométrie et de TXM.

 

Catégories :

 

Entrée

Cat

Description

AFC

com

action de réduire le nombre de dimensions d'une matrice (de type « parties x mots ») avec l'algorithme d'analyse factorielle des correspondances. Les nouvelles dimensions sont représentées par des vecteurs propres appelés facteurs. Les parties et les mots de la matrice originelle peuvent être affichés simultanément dans les plans factoriels résultants.

AFR

tal

code standard pour l'ancien français.

Alceste

log

logiciel commercial textométrie.

annotation

don

propriété d'une unité (lexicale ou structurelle) d'un point de vue logique.

balise

don

représentation bornée d'un élément, qui contient ses propriétés, en langage XML

caractère

don

unité élémentaire constituant la forme d'un mot.

CATTEX2009

tal

jeu d'étiquettes morphosyntaxiques pour l'ancien français.

module d'importation

com

composant logiciel qui importe des éléments dans la plateforme TXM, depuis une source.

ClipN

int

corpus créés à partir du presse-papier sont nommés 'Clip'+<un numéro>.

CNR

for

format de données de Cordial.

commande

com

action disponible dans TXM.

concordance

com

manière de présenter les résultats d'une recherche, où chaque occurrence apparaît centrée sur sa propre ligne, au milieu de son contexte.

console

int

TXM affiche divers messages lors de son exécution, dans une fenêtre appelée « console ».

Cordial

tal

étiqueteur morphosyntaxique et lemmatiseur commercial.

corpus

don

ensemble de mots. Ces ensembles viennent de textes, entiers ou lacunaires. Les corpus « racines » sont construits à partir de  bases.

CQL

req

pour <Corpus Query Language>, langage de requêtes géré par CQP, appliqué aux corpus.

CQP

log

pour <Corpus Query Processor>, module logiciel gérant les requêtes pour construire des index, concordances, etc.

CSV

for

signifie « Comma Separated Values ». C'est un fichier texte où chaque ligne de résultat est séparée par saut de ligne et où les valeurs sont séparées par un caractère séparateur (comme la virgule).

Ctrl

int

touche « Ctrl » ou « Control » sur le clavier.

document

don

texte logique.

éditeur

com

fenêtre où un texte (comme un fichier source ou un script) peut être modifié.

encodage

don

façon dont une information est représentée dans le corpus source.

espace de travail

int

ensemble de tous les objets disponibles dans TXM (corpus, sous-corpus...).

étiqueteur

log

logiciel indépendant, capable de segmenter les mots, de leur associer une étiquette morphosyntaxique ou un lemme, à partir de sources textuelles.

étiquette

tal

propriété morphosyntaxique d'un mot

export

com

action d'enregistrer dans un fichier les résultats d'une commande TXM.

fichier

don

élément du système d'exploitation contenant des informations sur le disque dur de l'utilisateur : comme un texte ou un corpus source. Un fichier peut être désigné par un chemin d'accès.

focus

int

focaliser une commande sur un événement lexical particulier, par exemple à travers une requête.

forme graphique

don

forme graphique d'un mot, généralement calculée par les tokeniseurs.

fréquence

mét

nombre total d'occurrences d'un événement (une occurrence de mot, une occurrence de séquence de mots, etc.) dans un corpus.

Groovy

log

langage informatique dans lequel les scripts de TXM sont écrits.

HTML

for

format de représentation des données des pages web.

Hyperbase

log

logiciel académique de textométrie.

import

don

fait d'intégrer un corpus à la plateforme, à partir de fichiers source.

index

com

lister toutes les combinaisons de propriétés de mots, avec leur fréquence, pour toutes les occurrences d'une requête.

index

log

fichier créé par TXM afin d'accélérer les réponses aux requêtes.

indice

tal

valeur numérique fournie pour un modèle statistique.

infobulle

int

fenêtre temporaire qui s'affiche lorsqu'on survole un objet avec le curseur de la souris, par exemple, un mot dans une édition.

Java

log

langage dans lequel est programmé TXM.

jeu d'étiquettes

don

ensemble des valeurs morphosyntaxiques possibles de mots.

langage

don

langage dans lequel est écrit un texte ou un corpus.

lem

don

voir lemme.

lemme

don

entrée d'un mot dans le dictionnaire courant.

lemmatiseur

log

module logiciel qui fait correspondre une entrée de dictionnaire à chaque mot du texte

lexique

com

lister toutes les formes possibles de mots, ou de fréquences de propriétés de mot, dans un corpus.

ligne de statut

log

TXM affiche des commentaires temporaires sur les opérations qu'il effectue, dans un espace situé en bas à gauche de l'interface.

littéral

req

caractère considéré pour lui-même dans une requête.

localisation

int

l'interface de TXM peut s'afficher dans différentes langues, qui peuvent être paramétrées dans le menu « localisation » des préférences.

matcher

tal

correspondance structurelle dans l'algèbre des caractères de propriétés ou des occurrences

metadonnées

don

propriétés d'un texte ou d'un document entiers. Chaque métadonnée a un nom, un type et une valeur.

modifieur

req

caractère spécial utilisé pour exprimer certaines variantes dans une requête.

mot

don

unité lexicale identifiée grâce à sa forme graphique et à sa position dans la séquence des mots. Elle est généralement construite par les tokeniseurs.

Multext

tal

jeu d'étiquettes standard européen.

occurrence

mét

apparition d'un événement textuel dans un corpus, comme une occurrence de mot.

opérateur

req

caractère spécial ayant une signification particulière dans une requête.

page

don

segment de texte affiché sur un support, correspondant généralement à une page d'une édition papier.

partie

don

élément d'une partition d'un corpus.

partition

don

découpage d'un corpus en différentes parties. La somme de toutes ces parties correspond au corpus dans son ensemble. On utilise les partitions pour analyser les contrastes entre les parties (comme entre les dates de discours, des auteurs, des sections d'un même texte, etc.)

phrase

tal

séquence de mots, syntaxiquement homogène, construite par les tokeniseurs.

pivot

com

colonne centrale d'une concordance, affichant toutes les occurrences d'une requête donnée.

pos

don

pour « part of speech », les informations morphosyntaxiques d'un mot.

préférence

int

chaque commande de TXM possède des paramètres. Certains de ces paramètres peuvent être réglés dans la fenêtre « Préférences ».

presse-papier

don

fonction du système d'exploitation permettant de stocker une sélection de texte, grâce à la commande « copier ».

propriété

don

information sur une unité lexicale ou structurelle.

référence

int

information affichée au début d'une ligne de concordance, qui provient des propriétés des unités lexicales et structurelles.

dossier

don

dossier contenant des fichiers ou d'autres dossiers, sur le disque dur de l'utilisateur. Un dossier peut être désigné par un chemin.

requête

com

chaine de caractères exprimant une combinaison de mots et de propriétés de mots.

script

log

fichier contenant une description d'actions précises qui peut être exécutée par TXM.

sélection

mét

liste de séquences de mots. Le résultat d'une recherche pour une requête est une sélection.

source

don

représentation initiale d'un corpus, dans un format propre, contenue dans plusieurs fichiers ou dossiers. Par exemple, le format peut être du TXT (texte brut), du XML ou de la TEI.

spécificité

com

action de lister des formes de mots spécifiques, ou des propriétés de mot, à chaque partie d'une partition, conformément au modèle quantitatif des spécificités.

T

met

le nombre total d'occurrences dans un corpus

TAL

log

pour « Traitement Automatique de la Langue ».

TEI

for

pour « Text Encoding Initiative », la façon standard d'encoder les textes. Consortium international de standardisation de l'encodage des sources de corpus. Voir http://www.tei-c.org. Le format TEI est exprimé en XML.

texte

don

séquence de mots de structure homogène, décrite par des propriétés appelées métadonnées.

textométrie

mét

méthodologie qu'applique TXM. La textométrie vous aide à analyser les corpus de textes, au moyen d'outils quantitatif et qualitatifs. Voir http://textometrie.ens-lyon.fr.

tokeniseur

log

composant logiciel capable de séparer les mots et de les caractériser par des propriétés, dans les fichiers source.

TreeTagger

log

logiciel étiqueteur indépendant académique

TXT

for

format de données d'un fichier en texte brut (sans aucune annotation).

unité

don

unité lexicale ou structurelle d'un texte.

unité structurelle

don

élément marquant la structure logique d'un texte. Dans TXM, toutes les unités structurelles sont organisées de manière hiérarchique : chaque unité est imbriquée dans une autre unité – jusqu'à l'unité 'text'. La plus petite unité structurelle se trouve juste au-dessus de l'unité lexicale.

V

mét

nombre total de formes graphiques différentes d'un corpus.

vocabulaire

com

générer un lexique ou un index.

Weblex

log

logiciel de textométrie académique.

window manager

int

logiciel qui permet d'organiser son interface de travail.

XML

for

format de données principal des sources des corpus.