1 Introduction
1.1 Textométrie
TXM est une interface utilisateur de haut niveau donnant accès à des outils d’analyse de corpus de textes.
Ces outils implémentent la textométrie, une méthode d’analyse de textes, combinant un ensemble complet d’outils d’analyse quantitatifs et qualitatifs.
1.2 Outils quantitatifs
Les outils quantitatifs produisent des synthèses « en masse » basées sur :
- des fréquences : le dénombrement de divers « faits » ou « observables » textuels. Les observables sont construits à partir des mots des textes - par exemple l’apparition d’un mot ou d’une séquence de mots, d’un lemme1, d’une catégorie grammaticale, d’un mot suivi d’une catégorie grammaticale particulière, etc.
- des contextes : diverses configurations de corpus isolant des passages de textes - par exemple un sous-corpus de textes d’un certain genre, un sous-corpus des prises de paroles d’un certain locuteur - ou comparant des textes - par exemple une partition (un contraste) entre plusieurs genres ou locuteurs -.
Les observables et les contextes sont calculés à la volée à l’aide de requêtes d’extraction dans la syntaxe CQL du moteur de recherche CQP.
Outils quantitatifs travaillant sur une partition (ou contraste)
- l’analyse factorielle des correspondances (AFC) : fournit une représentation plane des relations entre parties et observables textuels, à l’aide de facteurs ordonnés
- la classification hiérarchique ascendante (CAH) : fournit des classes de regroupement des parties et s’utilise en lien avec l’AFC
- le calcul des mots spécifiques : classe les observables textuels selon l’étonnement statistique que l’on a de leur dénombrement dans les parties
Outils quantitatifs travaillant sur un corpus ou sous-corpus
- cooccurrents : classe les observables textuels apparaissant dans le contexte d’un observable pivot selon l’étonnement statistique que l’on a de leur dénombrement dans les contextes
1.3 Outils qualitatifs
Les outils qualitatifs permettent de parcourir et de visualiser les observables pour « affiner » l’analyse :
- les progressions : affichent une représentation des apparitions longitudinales des observables textuels
- les index et lexiques : génèrent des listes d’observables accompagnés de leur fréquence (ou nombre d’apparitions)
- les concordanciers : affichent les contextes d’apparition d’un observable textuel
- les éditions de texte : offrent une lecture hypertextuelle des textes
1.4 Quatre types de corpus
TXM peut gérer quatre types de corpus différents :
- les textes écrits : dans divers formats source TXT, DOCX, ODT, XML, TEI…
- les transcriptions d’enregistrements audio ou vidéo synchronisées par timecode : aux formats Transcriber, TXT tabulé, DOCX tabulé, ODT tabulé
- les corpus alignés - multilingues ou multiversions - : au format TMX
- les corpus en tableau, comme les réponses à des questionnaires d’enquête ou des échanges de tweets, SMS ou posts Instagram : aux formats Excel, ODS, CSV
1.5 Éditions numériques avancées
TXM pouvant gérer des corpus de textes encodés en XML-TEI il peut analyser des éditions de textes numériques richement structurées selon les standards philologiques les plus élevés :
- éditions avec un apparat critique riche
- éditions synoptiques combinant images de fac-similé et transcriptions
1.6 Corpus multimédia
TXM pouvant gérer des corpus de textes synchronisés avec des enregistrements audio ou vidéo il permet notamment :
- de naviguer entre la transcription d’un enregistrement et sa lecture audio ou vidéo au sein de TXM au mot ou à la prise de parole près selon la granularité de la synchronisation
- de lire un fichier audio ou vidéo hébergé dans un serveur distant par Internet
1.7 Pré-annotation linguistique automatique
Tous les corpus sont gérés en interne dans une représentation numérique XML-TEI standard et peuvent être automatiquement lemmatisés à la volée par :
- le logiciel TreeTagger lors de l’import du corpus dans TXM
- ou bien en amont par des outils de TAL externes produisant une sortie XML encodant les mots et les annotations qui sera importée par TXM.
1.8 Annotation semi-automatique
TXM permet de corriger ou d’ajouter des annotations aux mots des textes depuis des vues de résultats comme les concordanciers.
1.9 Calculs statistiques et moteurs de recherche avancés
TXM utilise une version embarquée de R pour tous ses calculs statistiques et des versions embarquées de moteurs de recherche spécialisés pour extraire tous les phénomènes observables et dénombrables au sein des textes (les « faits » textuels) : comme toute combinaison d’annotations de mots (forme graphique, catégorie grammaticale, lemme…), de positions conjointes de mots et de limites de structures de texte, exprimées dans le langage de requête du moteur de recherche CQP.
1.10 Pilotage par scripts
Pour les chercheurs-scripteurs TXM peut également être piloté par des scripts Groovy et manipuler des sources XML à l’aide des technologies de l’état de l’art : XPath, XSLT, XQuery.
1.11 Mises en oeuvre de TXM
TXM est disponible pour poste de travail Windows, Mac ou Linux ainsi que sous forme de portail web. L’interface d’un portail web TXM reproduit au mieux celle de TXM pour poste, qui offre le plus de fonctionnalités. La version portail web permet également d’accéder à des corpus en ligne sans avoir à installer TXM ni des corpus – exemples de portails publics ici : https://groupes.renater.fr/wiki/txm-users/public/references_portails – éventuellement à travers un contrôle d’accès par comptes utilisateurs.
1.12 Applications de TXM
TXM est régulièrement utilisé dans de nombreux domaines scientifiques, comme par exemple : linguistique, langue, littérature, civilisation, géographie, documentation, sciences de l’information et de la communication, didactique, sciences de l’éducation, histoire, sociologie, informatique, mathématiques, statistiques, philosophie, psychologie, sciences politiques, urbanisme, transports, économie, administration, sciences de gestion, sciences biologiques, anthropologie, sciences de l’art.
la disponibilité du lemme et de la catégorie grammaticale des mots repose sur l’application automatique d’un lemmatiseur sur les textes↩︎