Quelle est la différence entre l'analyse en composantes principales et la mise à l'échelle multidimensionnelle?

133

Quelle est la différence entre PCA et MDS classique? Qu'en est-il des MDS par rapport aux MDS non métriques? Y a-t-il un moment où vous préféreriez l'un plutôt que l'autre? Comment les interprétations diffèrent-elles?

pca multidimensional-scaling pcoa

— Stephen Turner
source

96

La MDS métrique classique de Torgerson est en fait réalisée en transformant des distances en similitudes et en effectuant une ACP (décomposition propre ou décomposition en valeur singulière) sur celles-ci. [L'autre nom de cette procédure ( distances between objects -> similarities between them -> PCAoù les chargements sont les coordonnées recherchées) est Analyse des coordonnées principales ou PCoA .] Ainsi, PCA pourrait être appelé l'algorithme de la plus simple MDS.

Les MDS non métriques sont basées sur un algorithme itératif ALSCAL ou PROXSCAL (ou un algorithme similaire) qui est une technique de mappage plus polyvalente que la PCA et peut également être appliqué à la métrique MDS. Alors que l' APC conserve m dimensions importantes pour vous, ALSCAL / PROXSCAL correspond à la configuration à m dimensions (vous prédéfinir m ) et reproduit dissemblances sur la carte plus directement et avec précision que PCA peut habituellement (section voir illustration ci - dessous).

Ainsi, MDS et PCA ne sont probablement pas au même niveau pour être alignés ou opposés. La PCA n’est qu’une méthode alors que MDS est une classe d’analyse. En tant que mappage, PCA est un cas particulier de MDS. En revanche, l’ACP est un cas particulier d’analyse factorielle qui, en tant que réduction de données, est plus qu’un mappage, alors que MDS n’est qu’un mappage.

En ce qui concerne votre question sur les systèmes métropolitains métriques et non métriques, il y a peu de commentaires à faire car la réponse est simple. Si je crois que mes dissimilarités d'entrée sont si proches pour être des distances euclidiennes qu'une transformation linéaire suffira à les cartographier dans un espace à m dimensions, je préférerai les métriques MDS. Si je ne crois pas, une transformation monotone est nécessaire, impliquant l'utilisation de MDS non métriques.

Une note sur la terminologie pour un lecteur. Terme Classic (al) MDS (CMDS) peut avoir deux significations différentes dans une vaste littérature sur les SMD. Il est donc ambigu et doit être évité. Une définition est que CMDS est un synonyme de la métrique MDS de Torgerson. Une autre définition est que CMDS est une MDS (quel que soit l'algorithme; analyse métrique ou non) avec une entrée matricielle unique (car il existe des modèles analysant plusieurs matrices à la fois - modèle INDSCAL individuel et modèle répliqué).

Illustration à la réponse . Un certain nombre de points (ellipse) est en cours de cartographie sur une carte unidimensionnelle. Une paire de points est représentée par des points rouges.

Les MDS itératifs ou "vrais" visent directement à reconstruire des distances paires par objets. Car c’est la tâche de tout MDS . Divers contraintes ou critères misfit pourraient être réduits au minimum entre o distances riginal et les distances sur la m ap: , , . Un algorithme peut (MDS non métrique) ou non (MDS métrique) inclure une transformation monotone de cette manière. $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

La MDS basée sur la PCA (Torgerson ou PCoA) n’est pas droite. Il minimise les distances au carré entre les objets de l'espace d'origine et leurs images sur la carte. Ce n'est pas une tâche vraiment authentique du MDS; en tant que MDS, il ne réussit que dans la mesure où les axes principaux juniors écartés sont faibles. Si explique beaucoup plus de variance que le premier peut à lui seul refléter de manière substantielle les distances par paires dans le nuage, en particulier pour les points éloignés les uns des autres le long de l'ellipse. Les MDS itératifs gagneront toujours, surtout lorsque la carte est recherchée dans une très faible dimension. Les MDS itératifs, eux aussi, réussiront mieux quand une ellipse en nuage sera mince, mais rempliront mieux la tâche mds que PCoA. Par la propriété de la matrice à double centrage (décrite ici $P_1$ $P_2$ ) il semble que PCoA minimise , ce qui diffère de l’une quelconque des minimisations ci-dessus. $\|D_o\|_2^2-\|D_m\|_2^2$

Une fois encore, PCA projette les points du nuage sur le sous-espace le plus avantageux de l’épargne corporelle. Il ne projette pas les distances par paires , ni les emplacements relatifs des points sur un sous-espace qui économise le plus à cet égard, comme le fait MDS itératif. Néanmoins, historiquement, les analyses PCoA / PCA sont considérées parmi les méthodes de mesure métrique.

— tnphns
source

3

(+1) J'ai aimé les deux réponses, celle-ci probablement un peu plus.

— Dmitrij Celov

Le lien du PDF lié à PCoA. Vous pouvez le trouver sur l’archive Web: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— Pierre

49

Euh ... tout à fait différent. Dans PCA, les données continues multivariées (un vecteur multivarié pour chaque sujet) vous sont attribuées et vous essayez de déterminer si vous n'avez pas besoin de autant de dimensions pour les conceptualiser. Dans MDS (métrique), on vous donne la matrice des distances entre les objets et vous essayez de déterminer les emplacements de ces objets dans l'espace (et si vous avez besoin d'un espace 1D, 2D, 3D, etc.). Dans les MDS non métriques, vous savez seulement que les objets 1 et 2 sont plus distants que les objets 2 et 3, vous essayez donc de quantifier cela, en plus de trouver les dimensions et les emplacements.

Avec un effort d'imagination notable, vous pouvez dire qu'un objectif commun de PCA et MDS est de visualiser des objets en 2D ou en 3D. Mais étant donné la différence entre les entrées, ces méthodes ne seront pas discutées comme étant même reliées de manière lointaine dans un manuel multivarié. Je suppose que vous pouvez convertir les données utilisables pour PCA en données utilisables pour MDS (par exemple, en calculant les distances de Mahalanobis entre elles, à l'aide de la matrice de covariance), mais cela entraînerait immédiatement une perte d'informations: MDS n'est défini que jusqu'à l’emplacement et la rotation, et les deux derniers peuvent être réalisés de manière plus informative avec PCA.

Si je devais montrer brièvement à quelqu'un les résultats de MDS non métriques et si je voulais leur donner une idée approximative de ce qu'il fait sans entrer dans les détails, je pourrais dire:

Étant donné les mesures de similarité ou de dissimilarité que nous avons, nous essayons de cartographier nos objets / sujets de manière à ce que les "villes" qu’elles forment aient des distances les plus proches possible de ces mesures de similarité. Nous ne pouvions les faire correspondre parfaitement espace de dimension, bien que, si je représente les deux dimensions les plus d' information ici - un peu comme ce que vous feriez si vous en PCA a montré une photo avec les deux principales composantes principales. $n$

— StasK
source

18

Une ACP ne s'applique-t-elle pas sur une matrice de corrélation équivalente à une MDS avec des distances euclidiennes calculées sur des variables normalisées?

— chl

Donc, si je devais montrer brièvement à quelqu'un les résultats de MDS non métriques et si je voulais leur donner une idée approximative de ce qu'il fait sans entrer dans les détails, pourrais-je dire "cela fait quelque chose de similaire à l'APC" sans être trompeur?

— Freya Harrison

6

Je dirais: "Compte tenu des mesures de similitude ou de dissimilarité que nous avons, nous essayons de cartographier nos objets / sujets de manière à ce que les" villes "qu’ils forment aient des distances les séparant autant de ces mesures de similitude que Nous ne pouvons que les cartographier parfaitement dans un espace dimensionnel, c’est pourquoi je représente ici les dimensions les plus informatives - un peu comme ce que vous feriez dans PCA si vous montriez une image avec les deux principaux composants principaux ".

n

$n$

— StasK

+1 Cool - pour moi, ce commentaire lie joliment votre réponse. Merci.

— Freya Harrison

47

Deux types de MDS métriques

La tâche de mise à l’échelle métrique multidimensionnelle (MDS) peut être formulée de manière abstraite comme suit: étant donné une matrice de distances par paires entre points, trouver une imbrication de points de données dans telle que Les distances euclidiennes entre eux se rapprochent des distances données: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Si "approximatif" est compris ici dans le sens habituel de l'erreur de reconstruction, c'est-à-dire si l'objectif est de minimiser la fonction de coût appelée "stress": la solution n’est pas équivalente à PCA. La solution n'est donnée par aucune formule fermée et doit être calculée par un algorithme itératif dédié.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"Classical MDS", également connu sous le nom de "Torgerson MDS", remplace cette fonction de coût par une fonction connexe, mais non équivalente , appelée "contrainte": qui cherche à minimiser les erreurs de reconstruction des produits scalaires centrés au lieu des distances. Il s'avère que peut être calculé à partir de (si sont des distances euclidiennes) et que minimiser l'erreur de reconstruction de est exactement ce que fait la PCA, comme indiqué dans la section suivante.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

Le MDS classique (Torgerson) sur les distances euclidiennes est équivalent à PCA

Laissez les données être collectées dans la matrice de taille avec les observations en lignes et les entités en colonnes. Soit la matrice centrée avec les moyennes de colonnes soustraites. $\mathbf X$ $n \times k$ $\mathbf X_c$

PCA revient alors à effectuer une décomposition en valeurs singulières , les colonnes de constituant les composants principaux. Une méthode courante pour les obtenir consiste à composer une composition de la matrice de covariance , mais une autre méthode consiste à effectuer une composition eigend de la matrice de Gram : les composantes principales sont ses vecteurs propres mis à l'échelle par les racines carrées des valeurs propres respectives. $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

Il est facile de voir que , où est une matrice de . On en immédiatement où est une matrice de Gram de données non centrées. Ceci est utile: si nous avons la matrice de Gram des données non centrées, nous pouvons la centrer directement, sans revenir à lui-même. Cette opération est parfois appelée $\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$ double-centrage : notez que cela revient à soustraire les moyennes des lignes et des colonnes de (et à rajouter la moyenne globale soustraite deux fois), de sorte que les moyennes des lignes et des colonnes de soient égales à zéro.

K

$\mathbf K$

K_{c}

$\mathbf K_c$

Considérons maintenant une matrice de distances euclidiennes par paires avec. Cette matrice peut-elle être convertie en pour effectuer une PCA? Il s'avère que la réponse est oui. $n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

En effet, selon la loi des cosinus, nous voyons que So ne diffère de que par certaines constantes de ligne et de colonne (ici, signifie un carré élément par élément!). Cela signifie que si nous le centrons deux fois, nous aurons :

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

Ce qui signifie que, à partir de la matrice de distances euclidiennes par paire nous pouvons effectuer une ACP et obtenir les composantes principales. C’est exactement ce que fait MDS classique (Torgerson): , son résultat est donc équivalent à PCA. $\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

Bien sûr, si une autre mesure de distance est choisie au lieu de, alors MDS classique aboutira à autre chose. $\|\mathbf x_i - \mathbf x_j\|$

Référence: Les éléments de l’apprentissage statistique , section 18.5.2.

— amibe
source

Je dois admettre que je n’avais pas encore réfléchi à la question: mais voici une "vérification de plausibilité" à laquelle je m'interroge: depuis les dimensions des matrices, votre matrice de Gram ne devrait-elle pas être qui est ?

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

— cbeleites

Merci, @ cbeleites, vous avez raison, c'est juste une faute de frappe. Je vais le réparer maintenant. Faites-moi savoir si vous voyez d'autres erreurs (ou n'hésitez pas à éditer directement).

— amibe

1

+1 Et merci d'avoir montré en maths ce qui était dit dans le premier paragraphe de ma réponse.

— ttnphns

2

+1 J'aimerais que ce soit la réponse acceptée / la meilleure. Je pense que cela mérite facilement d'être.

— Zhubarb

35

PCA donne les mêmes résultats EXACT que les MDS classiques si la distance euclidienne est utilisée.

Je cite Cox & Cox (2001), p 43-44:

Il y a une dualité entre une analyse en composantes principales et PCO [analyse en coordonnées principales, aussi appelée MDS classique] où les dissimilarités sont données par la distance euclidienne.

La section de Cox & Cox l'explique assez clairement:

Imaginez que vous avez = attributs de produits par dimensions, moyenne centrée $X$ $n$ $p$
La PCA est obtenue en trouvant les vecteurs propres de la matrice de covariance ~ (divisée par n-1) - appelez les vecteurs propres et les valeurs propres . $X'X$ $\xi$ $\mu$
On atteint les MDS en convertissant d'abord en matrice de distance, ici la distance euclidienne, c'est-à-dire , puis en recherchant les vecteurs propres - appelez les vecteurs propres , et les valeurs propres . $X$ $XX'$ $v$ $\lambda$
p 43: "Il est bien connu que les valeurs propres de sont les mêmes que celles de , avec une valeur propre np zéro supplémentaire." Donc, pour , = $XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
Pour revenir à la définition des vecteurs propres, considérons les valeurs propres. $i^{th}$ $X'Xv_i = \lambda_i v_i$
Prémultiplier avec , on obtient $v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
Nous avons aussi . Puisque , nous obtenons que pour . $X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— utilisateur1705135
source

2

J'ai codé en R et utilisé cmdscale en tant qu'implémentation de MDS classique et de prcomp pour PCA. Cependant, le résultat n'est pas le même ... y a-t-il un point qui me manque?!

— user4581

3

same results as classical MDS. Par "MDS classique", vous devez être en train de parler du MDS de Torgerson. La déclaration est alors bien vraie, car la MDS de Torgerson est en réalité PCA (à partir de la matrice de distance seulement). Si définir "MDS classique" différemment (voir ma réponse), l'affirmation n'est pas vraie.

— ttnphns

7

Attendez, comment XX 'fournit-il une distance euclidienne? XX 'est un produit interne - si la matrice était normalisée, elle donnerait la similitude en cosinus. La distance euclidienne nécessite une soustraction et une racine carrée.

— ShainaR

@ user1705135 Je suis déconcerté par votre point 5. Cela ne devrait-il pas être ?

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

— Michael

4

Comparaison: "Metric MDS donne le résultat SAME en tant que PCA" - de manière procédurale - lorsque nous examinons la manière dont la SVD est utilisée pour obtenir l'optimum. Mais les critères de haute dimension préservés sont différents. La PCA utilise une matrice de covariance centrée tandis que MDS utilise une matrice de grammes obtenue par des matrices de distance à double centrage.

Fera la différence mathématiquement: PCA peut être vue comme maximisant sur sous des contraintes que est orthogonal, donnant ainsi des axes / composantes principales. Dans mise à l' échelle multidimensionnelle une matrice de Gram (une matrice psd qui peut être représenté sous la forme ) est calculée à partir de la distance euclidienne entre les lignes de et ce qui suit est réduite au minimum sur . minimiser: . $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— corbillard
source