Corpus exemples

Accédez à un répertoire de corpus, téléchargez le fichier binaire (.txm), puis appelez la commande ‘Fichier > Charger’ depuis TXM pour le charger.

Pour certains corpus, les sources sont également fournies (.zip). Dans ce cas, vous pouvez également importer le corpus depuis les sources et régler l’import selon vos préférences.

Textes écrits

Français

  • discours: corpus de divers discours des présidents français, publié par Damon Mayaffre.
  • fleurs-du-mal: les Fleurs du mal de Charles Baudelaire, édition de Jean-Marie Viprey.
  • mpt: corpus des débats à l’Assemblée nationale sur la loi “Mariage pour tous” de 2013, du projet mariagepourtousInXML.
  • quete-du-graal-tei: Queste del Saint Graal, édition de Christiane-Marchello Nizia et Alexei Lavrentiev, d’après ‘Lyon, Palais des Arts 77 (ms K) (fol. 160a-224d)’ et ‘Paris, BNF n. acq. fr. 1119 (ms. Z)’ ca. 1225-1230, manuscrits en ancien français.
  • tdm80j: Le tour du monde en quatre-vingts jours (Around the World in Eighty Days), Jules Verne, 1873, édition de J. Hetzel et Cie. Édition synoptique avec images en fac-similé de Wikisource.
  • txm-odt-manual: Manuel utilisateur de TXM sous forme de corpus TXM.
  • voeux: corpus de 54 voeux présidentiels français pour le Nouvel An (1959-2009), publié par Jean-Marc Leblanc.
  • voeux-fr: Voir voeux.

Anglais

  • brown: corpus de 500 textes écrits en anglais américain de 1961, publié par WN Francis et H. Kucera (cette version est basée sur la version XMLtTEI du projet NLTK).
  • leviathan: Leviathan de Thomas Hobbes, 1588-1679. Exemple de texte XML-TEI P5 du projet EEBO-TCP Phase 1.

Allemand

  • voeux-rfa: corpus de discours de Noël et de Nouvel An prononcés par les présidents et les chanceliers de la République fédérale d’Allemagne depuis 1987, contribution de Sascha Diwersy, Université de Cologne.

Transcriptions d’enregistrements (synchronisées)

  • p1s8-course-transcription: transcription des paroles et enregistrement audio/vidéo d’un cours de physique de lycée (en français).
    Voir Tiberghien Andrée et al., Partager un corpus vidéo dans la recherche en éducation: analyses et pluriels dans le cadre du projet ViSA, éducation & didactique 3/2012 (vol.6) [en ligne sur openedition.org].
    Pour visualiser la vidéo à partir de concordances (nécessite l’extension Media Player).

Corpus parallèles (multilingue)

  • uno-tmx-sample: échantillon de résolutions de l’Assemblée générale des Nations Unies: Un corpus parallèle en six langues (anglais, arabe, chinois, espagnol, français et russe), Alexandre Rafalovitch, Robert Dale. 2009. Résolutions de l’Assemblée générale des Nations Unies: Un corpus parallèle en six langues. Dans Proceedings of the MT Summit XII, pages 292 à 299, Ottawa, Canada, août.
    À importer avec le module d’import XML-TMX.

Corpus annotés

Certains corpus sont également téléchargeables depuis le portail de démonstration TXM.