Je vais commencer par une démonstration intuitive.
J'ai généré observations (a) à partir d'une distribution 2D fortement non gaussienne, et (b) à partir d'une distribution gaussienne 2D. Dans les deux cas, j'ai centré les données et effectué la décomposition en valeurs singulières X = U S V ⊤ . Ensuite, pour chaque cas, j'ai fait un nuage de points des deux premières colonnes de U , l'une contre l'autre. Notez que ce sont généralement les colonnes d' U S qui sont appelées «composants principaux» (PC); les colonnes de U sont des PC mis à l'échelle pour avoir une norme d'unité; encore, dans cette réponse que je me concentre sur les colonnes de U . Voici les nuages de points:n=100X=USV⊤UUSUU
Je pense que des déclarations telles que "les composants PCA ne sont pas corrélés" ou "les composants PCA sont dépendants / indépendants" sont généralement faites sur un exemple de matrice spécifique et se réfèrent aux corrélations / dépendances entre les lignes (voir par exemple la réponse de @ ttnphns ici ). PCA produit une matrice de données transformée U , où les lignes sont des observations et les colonnes sont des variables PC. C'est-à-dire que nous pouvons voir U comme un échantillon et demander quelle est la corrélation d'échantillon entre les variables PC. Cet exemple de matrice de corrélation est bien sûr donné par U ⊤ U = IXUUU⊤U=I, ce qui signifie que les corrélations d'échantillon entre les variables PC sont nulles. C'est ce que les gens veulent dire quand ils disent que "l'ACP diagonise la matrice de covariance", etc.
Conclusion 1: en coordonnées PCA, toutes les données ont une corrélation nulle.
Cela est vrai pour les deux diagrammes de dispersion ci-dessus. Cependant, il est immédiatement évident que les deux variables PC et y sur le nuage de points gauche (non gaussien) ne sont pas indépendantes; même s'ils ont une corrélation nulle, ils sont fortement dépendants et en fait liés par a y ≈ a ( x - b ) 2 . Et en effet, il est bien connu que non corrélé ne signifie pas indépendant .xyy≈a(x−b)2
Au contraire, les deux variables PC et yxy sur le nuage de points droit (gaussien) semblent être "à peu près indépendantes". Le calcul d'informations mutuelles entre elles (qui est une mesure de la dépendance statistique: les variables indépendantes ont zéro information mutuelle) par n'importe quel algorithme standard donnera une valeur très proche de zéro. Il ne sera pas exactement nul, car il ne sera jamais exactement nul pour une taille d'échantillon finie (sauf réglage fin); en outre, il existe différentes méthodes pour calculer les informations mutuelles de deux échantillons, donnant des réponses légèrement différentes. Mais nous pouvons nous attendre à ce que toute méthode produise une estimation d'informations mutuelles très proche de zéro.
Conclusion 2: en coordonnées PCA, les données gaussiennes sont "à peu près indépendantes", ce qui signifie que les estimations standard de la dépendance seront autour de zéro.
La question est cependant plus délicate, comme le montre la longue chaîne de commentaires. En effet, @whuber souligne à juste titre que les variables PCA et y (colonnes de U ) doivent être statistiquement dépendantes: les colonnes doivent être de longueur unitaire et doivent être orthogonales, ce qui introduit une dépendance. Par exemple, si une valeur dans la première colonne est égale à 1 , la valeur correspondante dans la deuxième colonne doit être 0 .xyU10
Cela est vrai, mais n'est pertinent que pour de très petits , comme par exemple n = 3 (avec n = 2 après le centrage, il n'y a qu'un seul PC). Pour toute taille d'échantillon raisonnable, telle que n = 100 indiquée sur ma figure ci-dessus, l'effet de la dépendance sera négligeable; les colonnes de U sont des projections (échelonnées) de données gaussiennes, elles sont donc également gaussiennes, ce qui rend pratiquement impossible qu'une valeur soit proche de 1 (cela nécessiterait que tous les autres n - 1 éléments soient proches de 0 , ce qui n'est guère une distribution gaussienne).nn=3n=2n=100U1n−10
Conclusion 3: à proprement parler, pour tout fini , les données gaussiennes en coordonnées PCA sont dépendantes; cependant, cette dépendance n'est pratiquement pas pertinente pour tout n ≫ 1 .nn≫1
Nous pouvons le préciser en considérant ce qui se passe dans la limite de . Dans la limite de la taille infinie de l'échantillon, la matrice de covariance de l'échantillon est égale à la matrice de covariance de population Σ . Donc , si le vecteur de données X est prélevée → X ~ N ( 0 , Σ ) , les variables PC sont → Y = Λ - 1 / 2 V ⊤ → X / ( n - 1 ) (où Λ et Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛVsont des valeurs propres et des vecteurs propres de ) et → Y ∼ N ( 0 , I / ( n - 1 ) ) . C'est-à-dire que les variables PC proviennent d'une gaussienne multivariée avec une covariance diagonale. Mais tout gaussien multivarié à matrice de covariance diagonale se décompose en un produit de gaussiens univariés, et c'est la définition de l'indépendance statistique :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Conclusion 4: les variables PC asymptotiquement ( ) des données gaussiennes sont statistiquement indépendantes en tant que variables aléatoires, et un échantillon d'informations mutuelles donnera une valeur de population nulle.n→∞
Je dois noter qu'il est possible de comprendre cette question différemment (voir les commentaires de @whuber): considérer la matrice entière une variable aléatoire (obtenue à partir de la matrice aléatoire X via une opération spécifique) et demander s'il y a deux éléments spécifiques U i j et U k l de deux colonnes différentes sont statistiquement indépendants dans différents tirages de X . Nous avons exploré cette question dans ce dernier fil .UXUijUklX
Voici les quatre conclusions intermédiaires ci-dessus:
- En coordonnées PCA, toutes les données ont une corrélation nulle.
- En coordonnées PCA, les données gaussiennes sont "à peu près indépendantes", ce qui signifie que les estimations standard de la dépendance seront autour de zéro.
- nn≫1
- n→∞