Eh bien, je pense qu'il est vraiment difficile de présenter une explication visuelle de l' analyse de corrélation canonique (CCA) par rapport à l' analyse en composantes principales ou la régression linéaire . Les deux derniers sont souvent expliqués et comparés au moyen d'un nuage de points de données 2D ou 3D, mais je doute que cela soit possible avec l'ACC. Ci-dessous, j'ai dessiné des images qui pourraient expliquer l'essence et les différences entre les trois procédures, mais même avec ces images - qui sont des représentations vectorielles dans "l'espace sujet" - la capture adéquate de l'ACC pose des problèmes. (Pour l'algèbre / algorithme d'analyse de corrélation canonique, regardez ici .)
Dessiner des individus en tant que points dans un espace où les axes sont des variables, un diagramme de dispersion habituel, est un espace variable . Si vous dessinez le chemin inverse - des variables sous forme de points et des individus sous forme d'axes - vous obtiendrez un espace de sujet . Dessiner les nombreux axes est en fait inutile car l'espace a le nombre de dimensions non redondantes égal au nombre de variables non colinéaires. Les points variables sont liés à l'origine et les vecteurs de forme, les flèches, couvrant l'espace sujet; alors nous voici ( voir aussi ). Dans un espace de sujet, si les variables ont été centrées, le cosinus de l'angle entre leurs vecteurs est la corrélation de Pearson entre elles, et les longueurs des vecteurs au carré sont leurs variances.. Sur les images ci-dessous, les variables affichées sont centrées (pas besoin de constante).
Composants principaux
X1X2P1P2P1P2P1abbb12/(|P1|∗|X2|)a
Régression multiple
YX1X2YY′YXeYY′Y′bbb2/|X2|
Corrélation canonique
En ACP, un ensemble de variables se prédisent elles-mêmes: elles modélisent les composants principaux, qui ensuite les modélisent, vous ne laissez pas l’espace des prédicteurs et (si vous utilisez tous les composants) la prédiction est sans erreur. Dans la régression multiple, un ensemble de variables permet de prédire une variable étrangère et génère donc une erreur de prédiction. En DPA, la situation est similaire à celle de la régression, mais (1) les variables externes sont multiples et forment un ensemble distinct; (2) les deux ensembles se prédisent simultanément (d'où la corrélation plutôt que la régression); (3) ce qu'ils prédisent l'un avec l'autre est plutôt un extrait, une variable latente, que le prédictand observé d'une régression ( voir aussi ).
Y1Y2XYVxVyY′Y′YVxVyVyVxϕXYX1 X2Y1 Y2Vx(2)VxVy(2)Vy
Pour la différence entre la régression CCA et PCA +, voir aussi Faire une CCA ou construire une variable dépendante avec PCA, puis une régression .