Standardisation des fonctionnalités lors de l'utilisation de LDA comme étape de prétraitement

Si une analyse discriminante linéaire multi-classes (ou je lis parfois plusieurs analyses discriminantes) est utilisée pour la réduction de dimensionnalité (ou la transformation après réduction de dimensionnalité via PCA), je comprends qu'en général une "normalisation du score Z" (ou standardisation) de les fonctionnalités ne seront pas nécessaires, même si elles sont mesurées à des échelles complètement différentes, n'est-ce pas? Puisque LDA contient un terme similaire à la distance de Mahalanobis qui implique déjà des distances euclidiennes normalisées?

Donc, non seulement ce ne serait pas nécessaire, mais les résultats après un LDA sur les fonctionnalités standardisées et non standardisées devraient être exactement les mêmes!?

— amibe
source

in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales

Non, cette déclaration est incorrecte. La question de la normalisation avec LDA est la même que dans toute méthode multivariée. Par exemple, PCA. La distance de Mahalanobis n'a rien à voir avec ce sujet.

— ttnphns

Merci, ce serait bien si vous pouviez peut-être commenter ce "problème de normalisation" dans PCA, par exemple. Si les fonctionnalités ne sont pas standardisées pour l'ACP, certaines fonctionnalités ne contribuent-elles pas (pondérées) davantage si elles sont mesurées à une échelle différente et me donnant des axes de composants complètement différents? Et pour la LDA, pourquoi ne sera-t-elle pas nécessaire? Le résultat (les discriminants linéaires) est-il différent, sinon pourquoi?

Lorsque vous normaliserez (c.-à-d. Au centre, puis à l'échelle), vous analyserez réellement les corrélations. Si vous ne standardisez pas, seulement centrez, vous analyserez réellement les covariances. Les résultats seront différents, ce qui est normal, car c'est comme si vous traitez des données différentes. Ce fait ne devrait pas vous inquiéter. Vous pouvez aimer lire le fil stats.stackexchange.com/q/62677/3277 .

— ttnphns

@SebastianRaschka, amibe: je dois reconsidérer mon commentaire The issue of standardization with LDA is the same as in any multivariate method. En fait, avec LDA (par opposition à PCA, par exemple), les résultats ne devraient pas différer, que vous ayez uniquement centré (LDA centre toujours les variables, pour extraire les discriminants) ou normalisé z les données.

— ttnphns

(Suite) Valeurs propres, coefficients standardisés, corrélations de structure, scores discriminants - tout sera le même. Seuls les vecteurs propres différeront. La raison pour laquelle il n'y a aucun effet de la normalisation sur les principaux résultats de la LDA est que la LDA décompose le rapport des covariances entre les deux et non la covariance elle-même ayant son ampleur (comme le fait l'ACP).

— ttnphns

Le mérite de cette réponse revient à @ttnphns qui a tout expliqué dans les commentaires ci-dessus. Je voudrais quand même apporter une réponse détaillée.

À votre question: les résultats LDA sur les fonctionnalités standardisées et non standardisées seront-ils exactement les mêmes? --- la réponse est oui . Je vais d'abord donner un argument informel, puis procéder à quelques calculs.

Imaginez un ensemble de données 2D montré comme un nuage de points sur un côté d'un ballon (image originale du ballon prise à partir d' ici ): LDA sur un ballon

Ici, les points rouges sont une classe, les points verts sont une autre classe et la ligne noire est la limite de la classe LDA. Maintenant, le redimensionnement des axes ou correspond à l'étirement horizontal ou vertical du ballon. Il est intuitivement clair que même si la pente de la ligne noire changera après un tel étirement, les classes seront exactement aussi séparables qu'auparavant et la position relative de la ligne noire ne changera pas. Chaque observation de test sera affectée à la même classe qu'avant l'étirement. On peut donc dire que l'étirement n'influence pas les résultats de la LDA. $x$ $y$

Maintenant, mathématiquement, LDA trouve un ensemble d'axes discriminants en calculant des vecteurs propres de , où et sont à l'intérieur d'une classe et entre les classes. matrices de dispersion. De manière équivalente, ce sont des vecteurs propres généralisés du problème des valeurs propres généralisées . $\mathbf{W}^{-1} \mathbf{B}$ $\mathbf{W}$ $\mathbf{B}$ $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$

Considérons une matrice de données centrée avec des variables dans les colonnes et des points de données dans les lignes, de sorte que la matrice de dispersion totale soit donnée par . Standardiser les données revient à mettre à l'échelle chaque colonne de par un certain nombre, c'est-à-dire la remplacer par , où est une matrice diagonale avec des coefficients d'échelle (inverses des écarts-types de chaque colonne) sur la diagonale. Après une telle mise à l'échelle, la matrice de dispersion changera comme suit: , et la même transformation se produira avec $\mathbf{X}$ $\mathbf{T}=\mathbf{X}^\top\mathbf{X}$ $\mathbf{X}$ $\mathbf{X}_\mathrm{new}= \mathbf{X}\boldsymbol\Lambda$ $\boldsymbol\Lambda$ $\mathbf{T}_\mathrm{new} = \boldsymbol\Lambda\mathbf{T}\boldsymbol\Lambda$ $\mathbf{W}_\mathrm{new}$ et . $\mathbf{B}_\mathrm{new}$

Soit un vecteur propre du problème d'origine, c'est-à-direSi nous multiplions cette équation par à gauche, et insérons deux côtés avant , nous obtenons c'est-à dire ce qui signifie que $\mathbf{v}$

B v = λ W v .

$\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}.$

Λ

$\boldsymbol\Lambda$

Λ Λ^{- 1}

$\boldsymbol\Lambda\boldsymbol\Lambda^{-1}$

v

$\mathbf{v}$

Λ B Λ Λ^{- 1} v = λ Λ W Λ Λ^{- 1} v,

$\boldsymbol\Lambda\mathbf{B}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\boldsymbol\Lambda\mathbf{W}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v},$

B_{n e w} Λ^{- 1} v = λ W_{n e w} Λ^{- 1} v,

$\mathbf{B}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\mathbf{W}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v},$

Λ^{- 1} v

$\boldsymbol\Lambda^{-1}\mathbf{v}$ est un vecteur propre après redimensionnement avec exactement la même valeur propre qu'avant.

λ

$\lambda$

L'axe discriminant (donné par le vecteur propre) changera, mais sa valeur propre, qui montre à quel point les classes sont séparées, restera exactement la même. De plus, la projection sur cet axe, qui était à l'origine donnée par , sera désormais donnée par , c'est-à-dire qu'il restera également exactement le même (peut-être jusqu'à un facteur d'échelle). $\mathbf{X}\mathbf{v}$ $\mathbf{X}\boldsymbol\Lambda (\boldsymbol\Lambda^{-1}\mathbf{v})= \mathbf{X}\mathbf{v}$

— amibe
source

+1. La "morale" de toute l'histoire est que la différence entre les seules données centrées et les données standardisées est entièrement absorbée par les vecteurs propres. Ainsi, lorsque les données sont multipliées par les vecteurs propres correspondants pour produire des scores discriminants, l'effet de la normalisation s'annule.

X

$\bf X$

X Λ

$\bf X \Lambda$

Λ

$\bf \Lambda$

— ttnphns