Analyse discriminante linéaire et règle de Bayes: classification

Quelle est la relation entre l'analyse discriminante linéaire et la règle de Bayes? Je comprends que la LDA est utilisée dans la classification en essayant de minimiser le rapport entre la variance intra-groupe et entre la variance entre groupes, mais je ne sais pas comment la règle de Bayes l'utilise.

classification discriminant-analysis bayes

— zca0
source

Les fonctions discriminantes sont extraites de manière à maximiser la variation entre les groupes et le rapport de variation à l'intérieur des groupes. Cela n'a rien à voir avec la classification, qui est la deuxième étape autonome de la LDA.

— ttnphns

La classification dans la LDA se déroule comme suit (approche de la règle de Bayes). [À propos de l'extraction de discriminants, on pourrait regarder ici .]

Selon le théorème de Bayes, la probabilité recherchée de traiter avec la classe tout en observant actuellement le point est , où $k$ $x$ $P(k|x) = P(k)*P(x|k) / P(x)$

- probabilité inconditionnelle (de fond) de classe ; - probabilité inconditionnelle (de fond) du point ; - probabilité de présence du point dans la classe , si la classe traitée est . $P(k)$ $k$ $P(x)$ $x$ $P(x|k)$ $x$ $k$ $k$

"Observer actuellement le point " étant la condition de base, , et donc le dénominateur peut être omis. Ainsi, . $x$ $P(x)=1$ $P(k|x) = P(k)*P(x|k)$

est une probabilité antérieure (pré-analytique) que la classe native pour est ; est spécifié par l'utilisateur. Habituellement, par défaut, toutes les classes reçoivent = 1 / nombre_de_classeségal. Afin de calculer , c'est-à-dire la probabilité postérieure (post-analytique) que la classe native pour est , il faut connaître . $P(k)$ $x$ $k$ $P(k)$ $P(k)$ $P(k|x)$ $x$ $k$ $P(x|k)$

- probabilité ensoi- ne peut être trouvée, pour les discriminants, le principal problème de la LDA, ce sont les variables continues et non discrètes. La quantité exprimant dans ce cas et proportionnelle à celle-ci est ladensité de probabilité(fonction PDF). Par la présente, nous devons calculer PDF pour le point dans la classe , , dansla distribution normaleà dimensions formée par les valeurs de $P(x|k)$ $P(x|k)$ $x$ $k$ $PDF(x|k)$ $p$ $p$ discriminants. [Voir Wikipedia Distribution normale multivariée]

P D F (x | k) = \frac{e^{- d / 2}}{(2 π)^{p / 2} \sqrt{| S |})}

$PDF(x|k) = \frac {e^{-d/2}} {(2\pi)^{p/2}\sqrt{\bf |S|})}$

où - la distance de Mahalanobis au carré [Voir Wikipedia Mahalanobis distance] dans l'espace des discriminants du point à un centroïde de classe; - matrice de covariance entre les discriminants , observée dans cette classe. $d$ $x$ $\bf S$

Calculez ainsi pour chacune des classes. pour le point et la classe expriment pour nous le recherché. Mais avec la réserve ci-dessus que le PDF n'est pas une probabilité en soi, seulement proportionnelle à celle-ci, nous devrions normaliser $PDF(x|k)$ $P(k)*PDF(x|k)$ $x$ $k$ $P(k)*P(x|k)$ , en divisant par la somme de s sur toutes les classes. Par exemple, s'il y a 3 classes en tout, , , , alors $P(k)*PDF(x|k)$ $P(k)*PDF(x|k)$ $k$ $l$ $m$

Le point est attribué par LDA à la classe pour laquelle est le plus élevé. $x$ $P(k|x)$

Remarque. C'était l'approche générale. De nombreux programmes LDA utilisent par défaut la matrice regroupée au sein d'une classe pour toutes les classes dans la formule PDF ci-dessus. Si tel est le cas, la formule se simplifie considérablement car un tel dans LDA est une matrice d'identité (voir la note de bas de page ici ), et donc et transforme en distance euclidienne au carré (rappel: le regroupement au sein de la classe nous parlons est des covariances entre les discriminants, - pas entre les variables d'entrée, laquelle matrice est généralement désignée par ). $\bf S$ $\bf S$ $\bf |S|=1$ $d$ $\bf S$ $\bf S_w$

Addition . Avant que l' approche de la règle de Bayes ci-dessus ne soit introduite dans la LDA, Fisher, pionnier de la LDA, a proposé de calculer les fonctions de classification linéaires désormais appelées Fisher pour classer les points dans la LDA. Pour le point le score de fonction d'appartenance à la classe est une combinaison linéaire , où $x$ $k$ $b_{kv1}V1_x+b_{kv2}V2_x+...+Const_k$ sont les variables prédictives de l'analyse. $V1, V2,...V_p$

Coefficient , étant le nombre de classes et étant l'élément de la matrice de diffusion groupée intra-classe de variables $b_{kv}=(n-g)\sum_w^p{s_{vw}\bar{V}_{kw}}$ $g$ $s_{vw}$ $p$ $V$

. $Const_k=\log(P(k))-(\sum_v^p{b_{kv}\bar{V}_{kv}})/2$

Le point est attribué à la classe pour laquelle son score est le plus élevé. Les résultats de classification obtenus par cette méthode de Fisher (qui contourne l' extraction des discriminants impliqués dans la composition complexe des eigendes) ne sont identiques à ceux obtenus par la méthode de Bayes que si la matrice de covariance regroupée au sein de la classe est utilisée avec la méthode de Bayes basée sur les discriminants (voir "Remarque" ci-dessus) et tous les discriminants sont utilisés dans la classification. La méthode de Bayes est plus générale, car elle permet également d'utiliser des matrices intra-classe distinctes . $x$

— ttnphns
source

C'est l'approche bayésienne non? Quelle est l'approche de Fisher pour cela?

— zca0

Ajouté à la réponse à votre demande

— ttnphns

+1 pour faire la distinction entre l'approche de Bayes et Fisher de la LDA. Je suis un nouveau venu en LDA, et les livres que je lis m'enseignent LDA dans l'approche de Bayes, qui classe

en classe

avec le

le plus élevé

, donc je dois calculer tous les

pour chaque classe

, non? Par l'approche de Fisher, j'ai juste besoin de comprendre les discriminants et leurs coefs correspondants, et pas besoin de calculer le postérieur pour chaque classe, non?

X

$X$

K

$K$

p (K | X)

$p(K|X)$

p (K | X)

$p(K|X)$

K

$K$

— avocat

Et je pense que l'approche des Bayes est plus compréhensible, et pourquoi devons-nous utiliser l'approche de Fisher?

— avocat

Nous n'en avons pas besoin. Juste pour une question historique.

— ttnphns

$x$ $f_1(x)$ $f_2(x)$ $x$ $f_1(x) \geq f_2(x)$ $f_1$ $f_2$

— Michael R. Chernick
source