Désaccord apparent des sources sur l'analyse linéaire, quadratique et discriminante de Fisher

J'étudie l'analyse discriminante, mais j'ai du mal à concilier plusieurs explications différentes. Je crois que je dois manquer quelque chose, car je n'ai jamais rencontré ce niveau (apparent) de divergence auparavant. Cela étant dit, le nombre de questions sur l'analyse discriminante sur ce site Web semble être un témoignage de sa complexité.

LDA et QDA pour plusieurs classes

Mon manuel principal est Johnson & Wichern Applied Multivariate Statistical Analysis (AMSA) et les notes de mon professeur basées sur cela. J'ignorerai le paramètre à deux groupes, car je pense que les formules simplifiées de ce paramètre sont à l'origine d'une certaine confusion. Selon cette source, la LDA et la QDA sont définies comme une extension paramétrique (en supposant une normalité multivariée) d'une règle de classification basée sur le coût attendu d'une mauvaise classification (ECM). L'ECM additionne le coût conditionnel prévu pour classer une nouvelle observation x dans n'importe quel groupe (en incorporant les coûts de classification erronée et les probabilités antérieures) et nous choisissons des régions de classification qui minimisent cela. où

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$ ,

f_{i} (x)

$f_i(\boldsymbol{x})$ est la densité de population,

R_{k}

$R_k$ est l'ensemble des observations du groupe k,

c

$c$ est le coût et

p_{i}

$p_i$ sont les probabilités a priori. De nouvelles observations peuvent ensuite être affectées au groupe pour lequel le terme interne est le plus petit ou de manière équivalente pour lequel la partie laissée de côté du terme interne

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ est la plus grande

Soi-disant, cette règle de classification est équivalente à "celle qui maximise les probabilités postérieures" (sic AMSA), ce que je ne peux que supposer est l'approche des Bayes que j'ai vue mentionnée. Est-ce correct? Et l'ECM est une méthode plus ancienne, car je ne l'ai jamais vue ailleurs.

Pour les populations normales, cette règle se simplifie en un score discriminant quadratique: .

d_{i}^{Q} (x) = - \frac{1}{2} l o g (Σ_{i}) - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l o g (p_{i})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$

Cela semble équivalent à Les éléments d'apprentissage statistique (ESL) Formule 4.12 à la page 110, bien qu'ils décrivent comme une discriminante quadratique fonction plutôt que d' une partition . De plus, ils arrivent ici grâce au log-ratio des densités multivariées (4,9). Est-ce encore un autre nom pour l'approche de Bayes?

Lorsque nous supposons une covariance égale, la formule se simplifie encore davantage par rapport au score discriminant linéaire .

d_{i} (x) = μ_{i}^{T} Σ^{- 1} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l o g (p_{i})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Cette formule diffère de l'ESL (4.10), où le premier terme est inversé: . La version d'anglais langue seconde est celle qui figure dans l' apprentissage statistique en R . De plus, dans la sortie SAS présentée dans AMSA, une fonction discriminante linéaire est décrite consistant en une constante et un coefficient vecteur , apparemment cohérent avec la version ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

Quelle pourrait être la raison de cet écart?

Discriminants et méthode de Fisher

Remarque: si cette question est jugée trop importante, je supprimerai cette section et ouvrirai une nouvelle question, mais elle s'appuie sur la section précédente. Toutes mes excuses pour le mur de texte, j'ai fait de mon mieux pour le structurer quelque peu, mais je suis sûr que ma confusion à propos de cette méthode a conduit à des sauts de logique plutôt étranges.

Le livre de l'AMSA décrit ensuite la méthode du pêcheur, également pour plusieurs groupes. Cependant, ttnphns a souligné à plusieurs reprises que la FDA est simplement LDA avec deux groupes. Qu'est-ce que cette FDA multiclasse alors? Peut-être que la FDA peut avoir plusieurs significations?

L'AMSA décrit les discriminants de Fisher comme les vecteurs propres de qui maximisent le rapport . Les combinaisons linéaires sont alors les discriminants échantillons (dont il y a ). Pour la classification, nous choisissons le groupe k avec la plus petite valeur pour où r est le nombre de discriminants que nous aimerions utiliser. Si nous utilisons tous les discriminants, cette règle serait équivalente à la fonction discriminante linéaire. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

De nombreuses explications sur le LDA semblent décrire la méthodologie qui est appelée FDA dans le livre AMSA, c'est-à-dire à partir de cet aspect de variabilité entre / au sein. Qu'entend-on alors par FDA sinon la décomposition des matrices BW?

C'est la première fois que le manuel mentionne l'aspect de réduction de dimension de l'analyse discriminante, alors que plusieurs réponses sur ce site soulignent la nature en deux étapes de cette technique, mais que ce n'est pas clair dans un cadre à deux groupes car il n'y a que 1 discriminant. Compte tenu des formules ci-dessus pour les LDA et QDA multiclasses, il ne me semble toujours pas où les discriminants apparaissent.

Ce commentaire m'a particulièrement laissé perplexe, notant que la classification de Bayes pouvait essentiellement être effectuée sur les variables d'origine. Mais si la FDA et la LDA sont mathématiquement équivalentes comme souligné par le livre et ici , la réduction de dimensionnalité ne devrait-elle pas être inhérente aux fonctions ? Je crois que c'est ce que ce dernier lien aborde, mais je ne suis pas tout à fait sûr. $d_i$

Les notes de cours de mon professeur continuent d'expliquer que la FDA est essentiellement une forme d'analyse de corrélation canonique. Je n'ai trouvé qu'une autre source qui parle de cet aspect, mais il semble encore une fois être étroitement lié à l'approche de Fisher de décomposer la variabilité entre et à l'intérieur. SAS présente un résultat dans sa procédure LDA / QDA (DISCRIM) qui est apparemment lié à la méthode de Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Cependant, l'option FDA de SAS (CANDISC) effectue essentiellement une corrélation canonique, sans présenter ces soi-disant coefficients de classification de Fisher. Il présente des coefficients canoniques bruts qui, je crois, sont équivalents aux vecteurs propres W-1B de R obtenus par lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Les coefficients de classification semblent être obtenus à partir de la fonction discriminante que j'ai décrite dans ma section LDA et QDA (car il y a 1 fonction par population et nous choisissons la plus grande).

Je serais reconnaissant pour toutes les clarifications ou références à des sources qui pourraient m'aider à voir la forêt à travers les arbres. La principale cause de ma confusion semble être que différents manuels appellent des méthodes sous des noms différents ou présentent une légère variation des mathématiques, sans reconnaître les autres possibilités, bien que je suppose que cela ne devrait pas être une surprise compte tenu de l'âge du livre AMSA .

multivariate-analysis discriminant-analysis

— Zenit
source

If we use all the discriminants this rule would be equivalent to the linear discriminant functionPas clair. «Discriminant» et «fonction discriminante» sont synonymes. Vous pouvez utiliser tous les discriminants ou seulement quelques-uns des plus forts / importants. Je ne me suis pas tourné vers le livre AMSA mais je soupçonne que FDA = LDA, pour les auteurs. En fait, je pense personnellement que «Fisher LDA» serait un terme excédentaire et inutile.

— ttnphns

Dans "Addition" à cette réponse sur la classification LDA, je remarque que le calcul des "fonctions de classification linéaire Fisher" directement à partir des variables équivaut à Extract the discriminants -> classify by them all (using Bayes approach, as usual)quand, comme d'habitude par défaut, la matrice de covariance regroupée au sein de la classe des discriminants est utilisée dans la classification.

— ttnphns

En fait, les "fonctions de classification linéaire de Fisher" sont un moyen de faire de la LDA sans faire la décomposition par eigend de W^-1Bpuis faire des "Bayes". Il est équivalent, mais moins flexible (vous ne pouvez pas sélectionner seulement quelques-uns des discriminants, vous ne pouvez pas utiliser des matrices de covariance distinctes lors de la classification, etc.).

— ttnphns

Je continue de digérer votre réponse et vos liens (merci), mais: 1) Voici un extrait de l'AMSA clarifiant les "discriminants" et les "scores discriminants" i.imgur.com/7W7vc8u.jpg?1 J'ai utilisé les termes "score" et "fonction" de manière interchangeable. 3) Dans le même extrait, vous pouvez voir que le livre AMSA se réfère à la composition d'eigend comme un moyen d'obtenir les discriminants de Fisher. La façon dont elle est présentée ici semble être plus flexible que la méthode linéaire / quadratique qui se traduit simplement par une fonction / score discriminant dur.

W^{- 1} B

$\boldsymbol{W^{-1}B}$

— Zenit

Zenit, pour moi, le score discriminant est la valeur d'une fonction discriminante (canonique). Je ne peux pas aller jusqu'à comparer les formules que vous citez avec ce que je sais sur la façon dont les discriminants canoniques sont calculés dans SPSS . Je vous suggère de faire des calculs et de comparer les résultats, et d'émettre vos conclusions. De plus, je soupçonne que différents textes peuvent appliquer différemment l'étiquette "Fisher's".

— ttnphns

Je ne m'adresse qu'à un aspect de la question, et je le fais intuitivement sans algèbre.

Si les classes ont les mêmes matrices variance-covariance et ne diffèrent que par le déplacement de leurs centroïdes dans l' espace dimensionnel, alors elles sont complètement linéairement séparables dans le "sous-espace" . C'est ce que fait LDA. Imaginez que vous avez trois ellipsoïdes identiques dans l'espace des variables . Vous devez utiliser les informations de toutes les variables afin de prédire l'appartenance à la classe sans erreur. Mais du fait que ces nuages étaient de taille identique et orientés, il est possible de les redimensionner par une transformation commune en boules de rayon unitaire. Alors $g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ des dimensions indépendantes suffiront pour prédire l'appartenance à une classe aussi précisément qu'autrefois. Ces dimensions sont appelées fonctions discriminantes . Ayant 3 boules de points de même taille, vous n'avez besoin que de 2 lignes axiales et de connaître les coordonnées du centre des boules afin d'attribuer correctement chaque point. $D_1, D_2$

Les discriminants sont des variables non corrélées, leurs matrices de covariance intra-classe sont idéalement identitaires (les boules). Les discriminants forment un sous-espace de l'espace des variables d'origine - ce sont leurs combinaisons linéaires. Cependant, ce ne sont pas des axes de type rotation (PCA): vu dans l'espace des variables d'origine, les discriminants car les axes ne sont pas mutuellement orthogonaux .

Ainsi, sous l'hypothèse d'homogénéité des variances-covariances intra-classe LDA utilisant pour la classification tous les discriminants existants n'est pas pire que la classification immédiate par les variables d'origine. Mais vous n'êtes pas obligé d'utiliser tous les discriminants. Vous ne pouvez utiliser que premier parmi les plus forts / statistiquement significatifs. De cette façon, vous perdez un minimum d'informations pour la classification et la mauvaise classification sera minimale. Vue sous cet angle, la LDA est une réduction de données similaire à la PCA, uniquement supervisée. $m<q$

Notez qu'en supposant l'homogénéité (+ normalité multivariée) et à condition que vous envisagiez d'utiliser mais tous les discriminants dans la classification, il est possible de contourner l' extraction des discriminants eux-mêmes - ce qui implique un problème propre généralisé - et de calculer les soi-disant «fonctions de classification de Fisher» à partir des variables directement, afin de classer avec elles , avec le résultat équivalent. Ainsi, lorsque les classes sont de forme identique, nous pourrions considérer les variables d'entrée ou les fonctions de Fisher ou les discriminants comme tous des ensembles équivalents de "classificateurs". Mais les discriminants sont plus pratiques à plusieurs égards. $g$ $p$ $g$ $q$ $^1$

Puisque généralement les classes ne sont pas des "ellipses identiques" en réalité, la classification par les discriminants est quelque peu plus faible que si vous effectuez la classification de Bayes par toutes les variables d'origine. Par exemple, sur ce tracé, les deux ellipsoïdes ne sont pas parallèles l'un à l'autre; et on peut comprendre visuellement que le seul discriminant existant ne suffit pas pour classer les points aussi précisément que le permettent les deux variables. Une QDA (analyse quadratique discriminante) serait alors une meilleure approximation que la LDA. Une approche pratique à mi-chemin entre LDA et QDA consiste à utiliser des discriminants LDA mais à utiliser leurs matrices de covariance de classes séparées observées lors de la classification ( voir , voir $q$ $p$ ) au lieu de leur matrice regroupée (qui est l'identité).

(Et oui, la LDA peut être considérée comme étroitement liée, même dans un cas spécifique, à la MANOVA et à l'analyse de corrélation canonique ou à la régression multivariée à rang réduit - voir , voir , voir .)

$^1$ Une note terminologique importante. Dans certains textes, les fonctions de classification de Fisher peuvent être appelées "fonctions discriminantes de Fisher", ce qui peut être confondu avec les discriminats qui sont des fonctions discriminantes canoniques (c'est-à-dire obtenues dans la composition par eigendecomposition de $g$ $q$ $\bf W^{-1}B$ ). Pour plus de clarté, je recommande de dire «fonctions de classification de Fisher» vs «fonctions discriminantes canoniques» (= discriminants, pour faire court). Dans la compréhension moderne, LDA est l'analyse discriminante linéaire canonique. "L'analyse discriminante de Fisher" est, du moins à ma connaissance, soit LDA avec 2 classes (où le discriminant canonique unique est inévitablement la même chose que les fonctions de classification de Fisher) ou, en gros, le calcul des fonctions de classification de Fisher dans des contextes multiclasses.

— ttnphns
source

Concernant la terminologie: l'article de Wikipedia sur LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) déclare que "Les termes discriminant linéaire de Fisher et LDA sont souvent utilisés de manière interchangeable, bien que l'article original de Fisher [1] décrive en fait un discriminant légèrement différent, ce qui ne ne pas faire certaines des hypothèses de LDA telles que les classes normalement distribuées ou les covariances de classe égales. " Sur cette base, la LDA sur 2 classes semble être un cas particulier de la "FDA", si les covariances de groupe sont "identiques". @ttnphns: est-ce correct?

— Laryx Decidua

@LaryxDecidua, je ne suis pas sûr à 100% de la terminologie dans ce cas, et j'ai vu des opinions différentes. Je n'utilise pas du tout le terme "Fisher's DA". Mais quand les gens demandent, je réponds que dans mon esprit, "FDA est LDA avec 2 classes".

— ttnphns

Merci, pour moi, l'aspect le plus intéressant est que "FDA", selon Wikipedia, n'assume pas la normalité, alors que "LDA" (et QDA) le font. Peut-être que "la FDA est LDA avec 2 classes, ne supposant pas la normalité ou l'homoscédasticité".

— Laryx Decidua