Différence entre l'ACP et le clustering spectral pour un petit ensemble d'échantillons de fonctionnalités booléennes

10

J'ai un ensemble de données de 50 échantillons. Chaque échantillon est composé de 11 entités booléennes (éventuellement corrélées). J'aimerais savoir comment visualiser ces échantillons sur un tracé 2D et examiner s'il y a des grappes / groupements parmi les 50 échantillons.

J'ai essayé les deux approches suivantes:

(a) Exécutez PCA sur la matrice 50x11 et choisissez les deux premiers composants principaux. Projetez les données sur le tracé 2D et exécutez des K-means simples pour identifier les clusters.

(b) Construire une matrice de similitude 50x50 (cosinus). Exécutez le regroupement spectral pour la réduction de dimensionnalité, puis à nouveau par K-means.

Quelle est la différence conceptuelle entre effectuer une ACP directe et utiliser les valeurs propres de la matrice de similarité? Est-ce que l'un est meilleur que l'autre?

Existe-t-il également de meilleures façons de visualiser ces données en 2D? Étant donné que ma taille d'échantillon est toujours limitée à 50 et que mon ensemble de fonctionnalités est toujours dans la plage 10-15, je suis prêt à essayer plusieurs approches à la volée et à choisir la meilleure.

Question connexe: regroupement des échantillons par clustering ou PCA

— user2602740
source

9

Quelle est la différence conceptuelle entre effectuer une ACP directe et utiliser les valeurs propres de la matrice de similarité?

L'ACP est effectuée sur une matrice de covariance ou de corrélation, mais le regroupement spectral peut prendre n'importe quelle matrice de similitude (par exemple, construit avec une similitude en cosinus) et y trouver des clusters.

Deuxièmement, les algorithmes de regroupement spectral sont basés sur le partitionnement des graphiques (il s'agit généralement de trouver les meilleures coupes du graphique), tandis que PCA trouve les directions qui ont le plus de variance. Bien que dans les deux cas nous finissions par trouver les vecteurs propres, les approches conceptuelles sont différentes.

Et enfin, je vois que l'ACP et le clustering spectral ont des objectifs différents: l'un est une technique de réduction de dimensionnalité et l'autre est plus une approche de clustering (mais cela se fait via la réduction de dimensionnalité)

— Alexey Grigorev
source

5

Pour les fonctionnalités booléennes (c'est-à-dire catégorielles avec deux classes), une bonne alternative à l'utilisation de PCA consiste à utiliser l'analyse de correspondance multiple (MCA), qui est simplement l'extension de PCA aux variables catégorielles (voir fil connexe ). Pour un aperçu du MCA, les articles sont Husson et al. (2010) ou Abdi et Valentin (2007) . Un excellent package R pour effectuer MCA est FactoMineR . Il vous fournit des outils pour tracer des cartes bidimensionnelles des chargements des observations sur les principaux composants, ce qui est très perspicace.

Vous trouverez ci-dessous deux exemples de cartes d'un de mes projets de recherche antérieurs (tracés avec ggplot2). Je n'avais qu'une soixantaine d'observations et cela a donné de bons résultats. La première carte représente les observations dans l'espace PC1-PC2, la deuxième carte dans l'espace PC3-PC4 ... Les variables sont également représentées dans la carte, ce qui aide à interpréter la signification des dimensions. La collecte des informations de plusieurs de ces cartes peut vous donner une assez belle image de ce qui se passe dans vos données.

Sur le site Web lié ci-dessus, vous trouverez également des informations sur une nouvelle procédure, HCPC, qui signifie Hierarchical Clustering on Principal Components, et qui pourrait vous intéresser. Fondamentalement, cette méthode fonctionne comme suit:

effectuer un MCA,
conserver les premières dimensions (où , avec votre nombre original de caractéristiques). Cette étape est utile dans la mesure où elle supprime un peu de bruit et permet donc un regroupement plus stable, $k$ $k<p$ $p$
effectuer un regroupement hiérarchique aggloméré (de bas en haut) dans l'espace des PC retenus. Puisque vous utilisez les coordonnées des projections des observations dans l'espace PC (nombres réels), vous pouvez utiliser la distance euclidienne, avec le critère de Ward pour le couplage (augmentation minimale de la variance intra-cluster). Vous pouvez couper le dendogramme à la hauteur que vous aimez ou laisser la fonction R couper si vous vous basez sur une heuristique,
(facultatif) stabilise les clusters en effectuant un clustering K-means. La configuration initiale est donnée par les centres des clusters trouvés à l'étape précédente.

Ensuite, vous avez de nombreuses façons d'étudier les clusters (caractéristiques les plus représentatives, individus les plus représentatifs, etc.)

— Antoine
source