2 Installer TXM
2.2 Installer TreeTagger pour ajouter automatiquement des propriétés morphosyntaxiques et des lemmes aux mots
Pour être en mesure d'automatiser la lemmatisation et l'étiquetage morphosyntaxique de votre corpus lors de son importation dans TXM, ce tutoriel va vous guider pour :
-
Récupérer le logiciel TreeTagger (Schmid, 1994) et un ou plusieurs de ses modèles linguistiques parce que nous ne pouvons pas le livrer avec TXM* ;
-
Indiquer à TXM où se trouve votre TreeTagger et le modèle linguistique choisi.
2.2.1 À l'aide d'un navigateur et de votre explorateur de fichiers
-
En étant connecté à Internet :
Télécharger l'archive du logiciel TreeTagger correspondant à votre système d'exploitation à partir du site de TreeTagger :
-
Extraire le contenu de l'archive compressée (*.zip) dans un dossier nommé 'treetagger' :
- Sous Windows |
C:\Programmes\treetagger |
- Sous Windows XP |
C:\Program Files\treetagger |
- Sous Mac OS X |
/Applications/treetagger |
- Sous Linux |
/usr/lib/treetagger |
-
Vérification : Une fois extrait, ce dossier doit contenir les dossiers et fichiers suivants : bin, cmd, doc, FILES, LICENSE et README.
-
Créer le sous-dossier 'models' dans votre dossier 'treetagger' qui contiendra les modèles de langues de TreeTagger.
Télécharger le modèle (fichier compressé '*.gz') de chaque langue dont vous souhaitez une lemmatisation à partir du site de TreeTagger :
français : french-par-linux-3.2-utf8.bin.gz (fr)
anglais : english-par-linux-3.2-utf8.bin.gz (en)
allemand : german-par-linux-3.2-utf8.bin.gz (de)
italien : italian-par-linux-3.2-utf8.bin.gz (it)
espagnol : spanish-par-linux-3.2-utf8.bin.gz (es)
russe : russian-par-linux-3.2-utf8.bin.gz (ru)
latin classique : latin-par-linux-3.2.bin.gz (la)
ancien français du projet BFM (sans lemmes) : fro.zip (fro)
autres langues : voir la liste de tous les modèles de langue TreeTagger disponibles (à la section 'Parameter files')
-
Décompresser chaque fichier compressé de modèle dans votre dossier 'models'.
Sous Windows, si vous n'avez pas de logiciel extracteur-décompresseur compatible avec les fichiers '*.gz', nous vous recommandons le logiciel libre 7-zip.
Renommer chaque fichier de modèle en utilisant les codes de langues ISO 639-1 à deux lettres.
Par exemple :'french.par' en 'fr.par' pour le fichier modèle français
'english.par' en 'en.par' pour le fichier modèle anglais
etc.
Sous Windows et Mac OS X : Par défaut, ces systèmes masquent à l'utilisateur les extensions de fichiers dont il gère le type. Dans ce cas, on peut se trouver dans une situation où l'on pense avoir renommé un fichier 'fr.bin' en 'fr.par' alors que le nom complet réel du fichier reste 'fr.par.bin'.
Dans ce cas il faut accéder à l'affichage complet des noms de fichiers puis les renommer :Sous Windows :
Pour afficher les noms complets des fichiers avec leur extension, vous pouvez suivre ce tutoriel : Afficher-les-extensions-et-les-fichiers-caches-sous-windows
Vous pouvez alors renommer le nom complet.
Sous Mac OS X :
Faire un clic droit sur l'icone du fichier (Ctrl-clic avec la souris ou bien cliquer à deux doigts sur le trackpad)
Lancer la commande 'Lire les informations'
Éditer le champ 'nom et extension' : supprimer l'extension '.bin'.
Fermer la fenêtre d'informations.
Vérification : Le dossier 'models' doit contenir le fichier 'fr.par' qui fait environ 17 Mo, et éventuellement les fichiers d'autres modèles de langues ('en.par', 'de.par', etc.).
2.2.2 Dans TXM
Aller dans les préférences de réglage de TreeTagger (voir figure 1) :
Menu 'Outils / Préférences'
Aller à la page 'TXM / Avancé / TAL / TreeTagger'
Renseigner le champ 'Chemin du dossier d'installation de TreeTagger' : cliquer sur 'Parcourir...', puis sélectionner votre dossier 'treetagger' (voir étape 2.) et terminer par 'OK'
Illustration 2.15: Préférences TreeTagger
Renseigner le champ 'Chemin du dossier de modèles linguistiques de TreeTagger' : cliquer sur 'Parcourir...', puis sélectionner votre dossier 'models' et terminer par 'OK'
Terminer par 'OK' pour enregistrer ces réglages
En cas de problème, vous trouverez de l'aide supplémentaire dans la FAQ.
Si vous ne parvenez pas à aller jusqu'au bout de cette procédure d'installation, veuillez nous contacter via la liste de diffusion des utilisateurs de TXM (txm-users@cru.fr) après vous être inscrit à la liste de diffusion txm-users.