Le mérite de cette réponse revient à @ttnphns qui a tout expliqué dans les commentaires ci-dessus. Je voudrais quand même apporter une réponse détaillée.
À votre question: les résultats LDA sur les fonctionnalités standardisées et non standardisées seront-ils exactement les mêmes? --- la réponse est oui . Je vais d'abord donner un argument informel, puis procéder à quelques calculs.
Imaginez un ensemble de données 2D montré comme un nuage de points sur un côté d'un ballon (image originale du ballon prise à partir d' ici ):
Ici, les points rouges sont une classe, les points verts sont une autre classe et la ligne noire est la limite de la classe LDA. Maintenant, le redimensionnement des axes ou correspond à l'étirement horizontal ou vertical du ballon. Il est intuitivement clair que même si la pente de la ligne noire changera après un tel étirement, les classes seront exactement aussi séparables qu'auparavant et la position relative de la ligne noire ne changera pas. Chaque observation de test sera affectée à la même classe qu'avant l'étirement. On peut donc dire que l'étirement n'influence pas les résultats de la LDA.xy
Maintenant, mathématiquement, LDA trouve un ensemble d'axes discriminants en calculant des vecteurs propres de , où et sont à l'intérieur d'une classe et entre les classes. matrices de dispersion. De manière équivalente, ce sont des vecteurs propres généralisés du problème des valeurs propres généralisées .W−1BWBBv=λWv
Considérons une matrice de données centrée avec des variables dans les colonnes et des points de données dans les lignes, de sorte que la matrice de dispersion totale soit donnée par . Standardiser les données revient à mettre à l'échelle chaque colonne de par un certain nombre, c'est-à-dire la remplacer par , où est une matrice diagonale avec des coefficients d'échelle (inverses des écarts-types de chaque colonne) sur la diagonale. Après une telle mise à l'échelle, la matrice de dispersion changera comme suit: , et la même transformation se produira avecXT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew et .Bnew
Soit un vecteur propre du problème d'origine, c'est-à-direSi nous multiplions cette équation par à gauche, et insérons deux côtés avant , nous obtenons c'est-à dire ce qui signifie quev
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1vest un vecteur propre après redimensionnement avec exactement la même valeur propre qu'avant.
λ
L'axe discriminant (donné par le vecteur propre) changera, mais sa valeur propre, qui montre à quel point les classes sont séparées, restera exactement la même. De plus, la projection sur cet axe, qui était à l'origine donnée par , sera désormais donnée par , c'est-à-dire qu'il restera également exactement le même (peut-être jusqu'à un facteur d'échelle).XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
Non, cette déclaration est incorrecte. La question de la normalisation avec LDA est la même que dans toute méthode multivariée. Par exemple, PCA. La distance de Mahalanobis n'a rien à voir avec ce sujet.