8 Analyser un corpus
8.13 Classification Ascendante Hiérarchique (CAH)
Voir aussi la documentation commune à toutes les visualisations dans la section « 8.14 Visualisation graphique des résultats » page 1.
La commande Classification calcule la classification ascendante hiérarchique (CAH) (Benzécri, 1979a) des colonnes ou des lignes d'une table lexicale ou d’une partition. Elle peut également s’appliquer au résultat d’une AFC.
Dans le cas d’une partition, une table lexicale est d’abord construite à la volée pour ensuite lui appliquer le calcul de CAH. La construction prend comme paramètres :
-
le nom de la propriété de mot à utiliser pour construire les vecteurs de fréquences (word, *lemma, *pos...) ;
-
le nombre maximum de lignes de la table ;
-
la fréquence totale minimale d’une valeur de propriété pour faire partie de la table.
Dans la table lexicale calculée à la volée, les colonnes correspondent aux parties et contiennent le vecteur colonne des fréquences des valeurs de la propriété de mot choisie, et les lignes contiennent les fréquences au sein de chaque partie d’une des valeurs de la propriété de mot.
Dans le cas d’une application sur le résultat d’une AFC, la classification s’applique à la table lexicale sur laquelle l’AFC a été appliquée.
Cette commande doit être appliquée à une partition constituée d'au moins quatre parties ou à une table lexicale constituée d’au moins quatre colonnes.
Illustration 8.36: Exemple de classification réalisée depuis une partition sur les présidents dans le corpus VOEUX représentés par le vecteur fréquence des formes graphiques en utilisant la méthode d’agrégation ward et une distance euclidienne. 4 classes sont représentées : [dg], [sarkosy, chirac, hollande], [giscard] et [pompidou, mitterrand].
La barre d’outils de la fenêtre de résultats (située en haut à gauche) permet de :
-
choisir le nombre de classes à représenter dans le dendrogramme (menu « Nombre de classes : ») ;
-
choisir si on fait la classification des colonnes ou des lignes.
La visualisation des résultats en 2D affiche :
au centre le dendrogramme des regroupements par classes d’éléments, composé :
de cadres de couleur correspondants aux regroupements par classes ;
de l’échelle des indices de niveaux de regroupement située à gauche ;
-
en haut à droite le diagramme des indices de niveaux (du nœud le plus haut au nœud le plus bas du dendrogramme).
On trouvera des paramètres complémentaires dans les préférences de la classification :
-
la méthode d’agrégation à utiliser (ward , average...) ;
-
la distance à utiliser (euclidienne, manhattan) ;
-
le type de visualisation graphique du dendrogramme : 2D ou 3D ;
-
le nombre de classes à représenter par défaut.
La visualisation graphique en 3D combine la visualisation du dendrogramme des classes avec celle des positions des dimensions à classer (colonnes ou lignes) dans le premier plan factoriel de l’AFC correspondante.
L'algorithme de cette commande est implémenté par le package FactoMineR. Cette implémentation s’appuie sur un calcul d’AFC « à la volée » préalable.