Premièrement, je pense que la décorrélation et le blanchiment sont deux procédures distinctes.
Afin de décorréler les données, nous devons les transformer afin que les données transformées aient une matrice de covariance diagonale. Cette transformation peut être trouvée en résolvant le problème des valeurs propres. Nous trouvons les vecteurs propres et les valeurs propres associées de la matrice de covariance en résolvantΣ = X X′
Σ Φ = Φ Λ
où est une matrice diagonale ayant les valeurs propres comme éléments diagonaux.Λ
La matrice diagonise ainsi la matrice de covariance de . Les colonnes de sont les vecteurs propres de la matrice de covariance.X ΦΦXΦ
Nous pouvons également écrire la covariance diagonalisée:
Φ′Σ Φ = Λ(1)
Donc, pour décorréler un seul vecteur , nous faisons:Xje
X∗je= Φ′Xje(2)
Les éléments diagonaux (valeurs propres) dans peuvent être identiques ou différents. Si nous les faisons tous de la même manière, cela s'appelle blanchir les données. Étant donné que chaque valeur propre détermine la longueur de son vecteur propre associé, la covariance correspondra à une ellipse lorsque les données ne sont pas blanchies et à une sphère (ayant toutes les dimensions de la même longueur ou uniforme) lorsque les données sont blanchies. Le blanchiment est effectué comme suit:Λ
Λ- 1 / deuxΛ Λ- 1 / deux= Je
De manière équivalente, en remplaçant en , nous écrivons:( 1 )
Λ- 1 / deuxΦ′Σ Φ Λ- 1 / deux= Je
Ainsi, pour appliquer cette transformation de blanchiment à nous la multiplions simplement par ce facteur d'échelle, en obtenant le point de données blanchi : x † iX∗jeX†je
X†je= Λ- 1 / deuxX∗je= Λ- 1 / deuxΦ′Xje(3)
Maintenant, la covariance de est non seulement diagonale, mais aussi uniforme (blanc), puisque la covariance de , .X†jeX†jeE ( x†jeX†je′) = I
Suite à cela, je peux voir deux cas où cela pourrait ne pas être utile. Le premier est plutôt trivial, il peut arriver que la mise à l'échelle des exemples de données soit en quelque sorte importante dans le problème d'inférence que vous regardez. Bien sûr, vous pouvez utiliser les valeurs propres comme un ensemble supplémentaire de fonctionnalités pour contourner ce problème. Le second est un problème de calcul: tout d'abord, vous devez calculer la matrice de covariance , qui peut être trop grande pour tenir en mémoire (si vous avez des milliers de fonctionnalités) ou prendre trop de temps à calculer; deuxièmement, la décomposition des valeurs propres est O (n ^ 3) dans la pratique, ce qui est encore assez horrible avec un grand nombre de caractéristiques.Σ
Et enfin, il existe un "piège" commun auquel les gens doivent faire attention. Il faut faire attention de calculer les facteurs d'échelle sur les données d'entraînement , puis d'utiliser les équations (2) et (3) pour appliquer les mêmes facteurs d'échelle aux données de test, sinon vous risquez de sur-adapter (vous utiliseriez informations de l'ensemble de tests dans le processus de formation).
Source: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf