Qu’est-ce que la textométrie ?
Cette discipline s’est essentiellement développée en France à partir des années 1970, dans la lignée des recherches pionnières de Pierre Guiraud (1954, 1960) et de Charles Muller (1968, 1977) en statistique lexicale (évaluation de la richesse du vocabulaire d’un texte, vocabulaire caractéristique d’un texte). Elle reprend et poursuit également les méthodes d’analyse des données (analyses factorielles, classifications) mises au point par Jean-Paul Benzécri (1973) et déjà appliquées par lui aux données linguistiques : de telles techniques permettent de générer des cartographies synthétiques et visuelles des mots et des textes tels qu’ils s’apparentent ou s’opposent au sein d’un corpus. La textométrie développe en outre de nouveaux modèles statistiques pour rendre compte de caractéristiques significatives des données textuelles : attirances contextuelles des mots (phraséologie, champs thématiques,…), linéarité et organisation interne du texte (par exemple mots bien répartis au fil du texte ou au contraire apparaissant en “rafales”), contrastes intertextuels (mesure statistique fiable du sur-emploi ou du sous-emploi d’un mot dans un texte, et repérage des mots et des phrases caractéristiques d’un texte), indicateurs d’évolution lexicale (période caractéristique d’un terme, détection des ruptures significatives). Les résultats des calculs sont des réorganisations synthétiques, sélectives et suggestives, des textes soumis à l’analyse : listes ordonnées, visualisation cartographiques, regroupements, mises en valeur au fil du texte. L’interprétation des calculs se fonde sur des indicateurs chiffrés mais aussi sur l’examen systématique des contextes, maintenant facilité par des liens hypertextes pertinents. Les chercheurs en textométrie ont bien sûr également approfondi le débat sur la modélisation des données textuelles : que compte-t-on au juste ? Dans quelle mesure est-il opportun de soumettre préalablement le texte à une analyse linguistique, pour mieux délimiter et reconnaître les mots ?
La textométrie met donc un large éventail de calculs linguistiquement significatifs et mathématiquement fondés au service de l’analyse méthodique et renouvelée de collections de textes : associations syntagmatiques et paradigmatiques, contrastes et caractérisations, évolutions. Outillant une démarche équilibrée alternant calcul de vues synthétiques globales et consultation ciblée des contextes d’emploi, elle révèle les nouvelles possibilités de lecture offertes par les corpus numériques.
En quoi la textométrie est-elle une approche originale ?
Bien sûr, la textométrie n’est pas la seule à s’être intéressée à l’application de calculs sur des données textuelles. Voici quelques autres courants par rapport auxquels situer la textométrie.
La recherche d’information (information retrieval) s’est développée dans la même période à partir des recherches notamment de Salton, aux Etats-Unis. Dans un contexte d’informatisation des bibliothèques et d’automatisation de la recherche documentaire, il s’agissait de mettre au point des mesures pour sélectionner automatiquement les mots caractéristiques d’un document (à la manière d’une indexation par mots-clés), et pour mettre en relation un besoin d’information exprimé dans une “requête” avec les documents les plus pertinents. Ce courant de recherche a mis au point des techniques populaires, car simples et efficaces (par exemple le tf.idf pour pondérer les mots d’un texte, l’information mutuelle pour repérer les attirance lexicales). Il partage avec la textométrie le souci de trouver des méthodes robustes capables de traiter de grands volumes de textes. En revanche, il nous semble que la textométrie a davantage cherché à fonder ses modèles tant au plan mathématique (probabilités, statistiques, analyse des données) qu’au plan linguistique (expression et traduction mathématique d’hypothèses sur la langue et la textualité). Cette base théorique donne du recul pour évaluer, interpréter, faire évoluer et enrichir ses modèles. Par ailleurs, la textométrie se caractérise par une riche palette d’outils pour l’analyse textuelle (avec des développements littéraires, stylistiques, philologiques, herméneutiques, etc.), alors que la recherche d’information se focalise bien naturellement sur les problématiques documentaires (repérage et mise en relation d’unités d’information).
L’analyse sémantique latente (Latent Semantic Analysis, LSA) applique elle aussi à des données textuelles un calcul mathématique, permettant de déterminer une représentation spatiale synthétique et d’en tirer des effets linguistiques intéressants, notamment une certaine capacité à neutraliser les variations de synonymie et de paraphrase. Si les concepteurs et utilisateurs de LSA forment une véritable communauté de recherche, relativement autonome, il n’en reste pas moins que le modèle géométrique mis en oeuvre s’apparente de près aux analyses factorielles inventées par Benzécri. La textométrie pratique et cultive déjà ce genre de calculs d’espaces linguistiques ; elle les mets au service de l’analyse textuelle et les articule avec d’autres outils complémentaires, notamment pour rendre compte des contextes d’emploi. L’approche textométrique se caractérise ici par l’importance accordée au retour au texte, alors que la communauté LSA part du texte pour explorer d’autres terrains par delà le texte, comme la cognition ou la langue.
Plus généralement, le Text Mining explore et met en valeur les techniques d’analyse des données et d’analyse statistique en les appliquant à des corpus textuels. Là encore, on retrouve des calculs connus et pratiqués par la textométrie (comme la classification ou “clustering”). Mais réciproquement, une bonne part des calculs originaux développés par la textométrie pour modéliser des phénomènes linguistiques restent encore ignorés par la communauté du text mining. De plus, la désignation même de text mining met l’accent sur l’idée que l’on va extraire quelques informations précieuses des textes ; la démarche de la textométrie est sans cesse orientée vers le texte, tout en donnant les moyens de maîtriser l’abondance des contextes.
Même dans le domaine de l’analyse de texte assistée par ordinateur (par exemple pour l’analyse littéraire), les logiciels de textométrie occupent encore une place originale de part la richesse des calculs et donc des cheminements d’analyse qu’ils offrent. On trouve plutôt actuellement d’excellents logiciels spécialisés dans un type de calcul : des moteurs de recherche très évolués, ou des concordanciers (ou “KWIC”, keyword in context) très complets.
Le traitement automatique des langues a également recourt aux statistiques pour la construction et la reconnaissance d’unités linguistiques. Ces calculs restent complémentaires à ceux de la textométrie, car ils visent d’autres objectifs et sont affinés pour eux (comme l’extraction de terminologie ou l’étiquetage morphosyntaxique). Le rapport au corpus est également assez différent : le TAL exploite éventuellement un corpus pour calibrer ses calculs, mais ensuite l’objet d’analyse est de l’ordre du syntagme ; la textométrie navigue entre des vues globales des textes et la consultation de contextes locaux.
Et qu’en est-il de la textométrie par rapport aux outils actuels qui permettent des recherches performantes sur de très grands corpus, comme les moteurs de recherche sur internet ?
Au plan fonctionnel, les moteurs de recherche (comme les outils d’interrogation les plus populaires sur internet : Google, exalead, etc.) repèrent les documents qui ont des occurrences du mot (ou motif) recherché. L’outil se focalise sur le repérage des documents mais n’outille pas leur parcours et leur analyse. Les fonctionnalités de la textométrie peuvent être décrites synthétiquement par le modèle SEMA (Synthèse, Edition, Moteur, Annotation) : on a non seulement un moteur de recherche (repérage des occurrences d’un motif donné), mais aussi une attention particulière accordée à l’édition (présentation) du texte (accès aux contextes) ; et surtout des calculs statistiques générant des vues synthétiques significatives (caractérisation des singularités d’un texte, repérage des thèmes, etc.). Enfin, des possibilités d’annotation complètent ce dispositif en permettant de personnaliser, affiner et enrichir dynamiquement les corpus au fil des analyses.
L’algorithme révolutionnaire de Google, qui classe les pages en fonction de leur popularité (exprimée par les liens hypertextes pointant vers chaque page et l’équilibre global du réseau), développe directement une approche “conformisante” de l’intertextualité : plus une page est citée, plus elle est mise en valeur par Google, et vice versa. La textométrie vise au contraire à mettre en évidence les spécificités et les contrastes significatifs. Ces possibilités de caractérisation et de repérage des singularités est particulièrement bienvenu pour le travail de recherche en sciences humaines ; c’est aussi plus généralement un facteur d’ouverture et de liberté de pensée.
Les moteurs d’internet ont été développés pour indexer et rechercher des “pages” web. Les techniques mobilisées sont adaptées à des textes courts. Mais l’analyse experte des corpus en sciences humaines doit prendre en compte leur épaisseur textuelle. Les orientations actuelles de la recherche textométrique, qui nourrissent le présent projet, prennent en compte explicitement cet aspect en mettant au point de nouveaux modèles en topologie textuelle et en développant des interfaces adaptées (comme la carte des paragraphes dans Lexico 3).
La plateforme textométrique visée peut aussi davantage soutenir le travail scientifique d’interprétation fine des résultats des calculs automatisés. De fait, les moteurs commerciaux à la disposition des internautes se présentent comme des boîtes noires, leurs critères de sélection de telle ou telle page sont en partie opaques. Or la bonne compréhension des traitements ne relève pas ici d’une simple curiosité technique, mais des conditions nécessaires pour une juste appréciation et utilisation des résultats proposés. L’un des enjeux d’une plateforme textométrique ouverte est d’expliciter (à tous les niveaux : théoriques, informatiques, méthodologiques) les fonctionnalités disponibles. Une telle maîtrise possible du fonctionnement de l’outil donne accès à une compréhension juste et efficace des résultats des interrogations.
Même dans sa conception de la pertinence, la plateforme textométrique renouvelle utilement l’approche cultivée par les moteurs de recherche. Pour ceux-ci, les résultats sont classés par ordre de pertinence : soit une conception “compétitive” (quantitative et interminable - score) de l’apport d’un texte, discutable et en tout cas limitée, tout particulièrement pour un travail de recherche sur corpus en sciences humaines. Les fonctions d’exploration et de synthèse de la textométrie sont au service d’une vision globale, qualitative, respectant une pluralité de réponses sans trancher a priori.
Pourquoi la textométrie est-elle particulièrement intéressante pour l’exploitation des corpus en sciences humaines ?
La textométrie se présente donc comme particulièrement pertinente pour l’exploitation des corpus en sciences humaines et sociales. Elle est d’ailleurs appréciée dans des disciplines très diverses : archives historiques, dépouillement d’enquêtes avec questions ouvertes, oeuvres littéraires, etc. En effet, elle permet une observation à la fois fine et globale des textes, et donc une exploitation relativement complète des données rassemblées dans ces corpus. De plus, la textométrie reste proche des textes, elle respecte les choix expressifs et les met en valeur : or cette réalité langagière est souvent un terrain d’observation important et très riche pour les sciences humaines et sociales.
Pour citer ce document
PINCEMIN Bénédicte, HEIDEN Serge (2008) - “Qu’est-ce que la textométrie ? Présentation”, Site du projet Textométrie, https://pages.textometrie.org/textometrie/Introduction