Trois versions de l'analyse discriminante: différences et comment les utiliser


26

Quelqu'un peut-il expliquer les différences et donner des exemples spécifiques sur la façon d'utiliser ces trois analyses?

  • LDA - Analyse discriminante linéaire
  • FDA - Analyse discriminante de Fisher
  • QDA - Analyse quadratique discriminante

J'ai cherché partout, mais je n'ai pas trouvé de vrais exemples avec de vraies valeurs pour voir comment ces analyses sont utilisées et les données calculées, seulement beaucoup de formules difficiles à comprendre sans exemples réels. Comme j'ai essayé de comprendre, il était difficile de distinguer quelles équations / formules appartenaient à LDA et lesquelles appartenaient à la FDA.

Par exemple, disons qu'il existe de telles données:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

Et disons quelques données de test:

x1 x2
2  4
3  5
3  6

Alors, comment utiliser ces données avec ces trois approches? Il serait préférable de voir comment tout calculer à la main, sans utiliser de progiciel mathématique qui calcule tout en arrière-plan.

PS Je n'ai trouvé que ce tutoriel: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Il montre comment utiliser LDA.

Réponses:


23

"Fisher's Discriminant Analysis" est simplement LDA dans une situation de 2 classes. Lorsqu'il n'y a que 2 classes, les calculs manuels sont réalisables et l'analyse est directement liée à la régression multiple. LDA est l'extension directe de l'idée de Fisher sur la situation de n'importe quel nombre de classes et utilise des dispositifs d'algèbre matricielle (tels que la composition des eigendes) pour le calculer. Ainsi, le terme «analyse discriminante de Fisher» peut être considéré comme obsolète aujourd'hui. "Analyse discriminante linéaire" doit être utilisée à la place. Voir aussi . L'analyse discriminante avec 2+ classes (multi-classes) est canonique par son algorithme (extrait les dicriminants sous forme de variables canoniques); terme rare "Canonical Discriminant Analysis"

Fisher a utilisé ce que l'on appelait alors les «fonctions de classification de Fisher» pour classer les objets après le calcul de la fonction discriminante. De nos jours, une approche plus générale de Bayes est utilisée dans la procédure LDA pour classer les objets.

A votre demande d'explications de LDA je peux vous envoyer à ces mes réponses: extraction en LDA , classement en LDA , LDA parmi les procédures liées . Aussi ceci , ceci , ces questions et réponses.

Tout comme l'ANOVA nécessite une hypothèse de variances égales, LDA nécessite une hypothèse de matrices de variance-covariance égales (entre les variables d'entrée) des classes. Cette hypothèse est importante pour l'étape de classification de l'analyse. Si les matrices diffèrent sensiblement, les observations auront tendance à être attribuées à la classe où la variabilité est plus grande. Pour surmonter le problème, QDA a été inventé. QDA est une modification de LDA qui permet l'hétérogénéité ci-dessus des matrices de covariance des classes.

Si vous avez l'hétérogénéité (détectée par exemple par le test M de Box) et que vous n'avez pas de QDA à portée de main, vous pouvez toujours utiliser LDA dans le régime d'utilisation de matrices de covariance individuelles (plutôt que la matrice regroupée) des discriminants lors de la classification . Cela résout en partie le problème, quoique moins efficacement que dans QDA, car - comme je viens de le souligner - ce sont les matrices entre les discriminants et non entre les variables d'origine (lesquelles matrices différaient).

Laissez-moi analyser vous-même vos exemples de données.


Répondre à la réponse et aux commentaires de @ zyxue

LDA est ce que vous avez défini comme étant la FDA dans votre réponse. Le LDA extrait d' abord des constructions linéaires (appelées discriminants) qui maximisent l'entre-deux à l'intérieur de la séparation, puis les utilise pour effectuer une classification (gaussienne). Si (comme vous le dites) LDA n'était pas lié à la tâche d'extraire les discriminants LDA semblerait être juste un classificateur gaussien, aucun nom "LDA" ne serait nécessaire du tout.

C'est cette étape de classification où la LDA suppose à la fois la normalité et l' homogénéité de variance-covariance des classes. L' étape d' extraction ou de «réduction de dimensionnalité» de la LDA suppose une homogénéité de linéarité et de variance-covariance , les deux hypothèses ensemble rendent la «séparabilité linéaire» réalisable. (Nous utilisons une seule matrice regroupée pour produire des discriminants qui ont donc une matrice de covariance regroupée au sein d'une même classe, ce qui nous donne le droit d'appliquer le même ensemble de discriminants pour classer toutes les classes. Si tous les s sont les mêmes, les covariances de classe sont toutes identiques, l'identité; ce droit de les utiliser devient absolu.)SwSw

Le classificateur gaussien (la deuxième étape de la LDA) utilise la règle de Bayes pour attribuer des observations aux classes par les discriminants. Le même résultat peut être obtenu via les fonctions de classification linéaire de Fisher qui utilisent directement les caractéristiques originales. Cependant, l'approche de Bayes basée sur les discriminants est un peu générale dans la mesure où elle permettra également d'utiliser des matrices de covariance discriminantes de classe distinctes, en plus de la manière par défaut d'en utiliser une, celle mise en commun. Elle permettra également de baser la classification sur un sous-ensemble de discriminants.

Lorsqu'il n'y a que deux classes, les deux étapes de la LDA peuvent être décrites ensemble en un seul passage car «l'extraction latente» et la «classification des observations» se réduisent alors à la même tâche.


Je pense que je me souviens avoir appris dans mon cours d'apprentissage automatique que la LDA gaussienne à 2 classes supposait des densités gaussiennes et utilisait la règle MPE bayésienne tandis que la LDA de Fisher ne faisait pas l'hypothèse gaussienne et modifiait le critère d'optimalité pour maximiser le SNR. Cela correspond-il à votre réponse?
Austin

1
@Jake Intéressé à ce sujet également, dans cette réponse: stats.stackexchange.com/questions/87975/… , il est indiqué que le résultat est le même. Commentaires?
Dole

Etes-vous sûr que "" Fisher's Discriminant Analysis "est simplement LDA dans une situation de 2 classes"?
zyxue

@zyxue, 95% sûr, mais de toute façon je trouve le terme obsolète. Veuillez consulter ma note de bas de page dans stats.stackexchange.com/q/190806/3277 .
ttnphns

@ ttnphns, fyi, selon youtu.be/hGKt0yy9q_E?t=3010 , la FDA et la LDA sont souvent confondues dans la littérature. Une façon de distinguer les deux, la FDA est une méthode d'extraction des caractéristiques tandis que la LDA et la QDA sont une technique de classification.
zyxue

1

Je trouve difficile de convenir que la FDA est LDA pour deux classes comme l'a suggéré @ttnphns.

Je recommande deux belles conférences très instructives sur ce sujet par le professeur Ali Ghodsi:

  1. LDA & QDA . De plus, la page 108 du livre The Elements of Statistical Learning ( pdf ) contient une description de LDA cohérente avec l'exposé.
  2. FDA

Pour moi, LDA et QDA sont similaires car ce sont deux techniques de classification avec des hypothèses gaussiennes. Une différence majeure entre les deux est que LDA suppose que les matrices de covariance des caractéristiques des deux classes sont les mêmes, ce qui se traduit par une frontière de décision linéaire. En revanche, QDA est moins strict et permet différentes matrices de covariance de caractéristiques pour différentes classes, ce qui conduit à une frontière de décision quadratique. Voir la figure suivante de scikit-learn pour une idée de l'apparence de la frontière de décision quadratique.

Quelques commentaires sur les sous-parcelles :

  • Rangée du haut: lorsque les matrices de covariance sont en effet les mêmes dans les données, LDA et QDA conduisent aux mêmes limites de décision.
  • Rangée du bas: lorsque les matrices de covariance sont différentes, LDA conduit à de mauvaises performances car son hypothèse devient invalide, tandis que QDA effectue une classification bien meilleure.

D'un autre côté, la FDA est une espèce très différente, n'ayant rien à voir avec l'hypothèse de Gaussion. Ce que la FDA essaie de faire est de trouver une transformation linéaire pour maximiser la distance moyenne entre les classes tout en minimisant la variance intra-classe . La 2e conférence explique magnifiquement cette idée. Contrairement à LDA / QDA, la FDA ne fait pas de classification, bien que les caractéristiques obtenues après transformation trouvées par la FDA puissent être utilisées pour la classification, par exemple en utilisant LDA / QDA, ou SVM ou autres.


2
Veuillez voir ma réponse à votre réponse dans ma réponse. Je n'ai pas regardé la leçon vidéo à laquelle vous créez un lien, je ne peux donc pas dire si je suis d'accord avec elle. Je ne suis pas d'accord avec l'interprétation / définition (de LDA vs FDA) que vous donnez dans la réponse. Mais cela - la définition des deux termes - n'est pas un sujet très important pour moi. Il est plus important de comprendre comment tout cela fonctionne.
ttnphns

2
Si, à votre connaissance, FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classificationje dirais que c'est ce que j'appelle la "phase d'extraction de la LDA". Bien sûr, ces fonctionnalités extraites (les fonctions discriminantes) - vous pouvez les utiliser comme vous le souhaitez. Dans la classification LDA standard, ils sont utilisés comme classificateurs gaussiens.
ttnphns le

Je suis curieux où avez-vous lu que " LDA extrait d'abord des constructions linéaires (appelées discriminants)" ? Je pensais que cela s'appelait discriminant linéaire parce que la frontière de décision est linéaire, ce qui est le résultat de l'hypothèse que la matrice de covariance des caractéristiques est la même pour différentes classes. De même, QDA a une frontière de décision quadratique. Celles-ci sont également illustrées dans les figures intégrées. Outre les vidéos ci-dessus, je fais référence aux éléments de l'apprentissage statistique ( pdf . À la page 108, il commence à décrire LDA sans mentionner l'extraction de fonctionnalités.
zyxue

Après tout, je pense que nous parlons de la même chose, mais c'est juste une façon de nommer les choses. Vous pensez que LDA = feature_extraction + classification, mais d'après mes références, LDA est juste une question de classification. La partie feature_extraction s'appelle ici FDA. Surtout , il n'y a rien à voir ici avec le nombre de classes impliquées ici. LDA et FDA peuvent traiter plus de deux classes.
zyxue

Nous pouvons également nous en tenir aux définitions que nous utilisons. Quoi qu'il en soit, il convient de noter que les «constructions linéaires» et les «limites de décision linéaires» sont liées, dans le contexte de l'AD, il s'agit de la même chose. Regardez votre photo avec la bordure de décision en ligne droite. Lorsque vous transformez les classes trop, les ellipses pour être sphériques, la fonction discriminante sera précisément perpendiculaire à la bordure. En fait, la chose «principale» ici est la fonction discriminante, une variable, une dimension, tandis que la frontière de décision est la frontière dans l'espace qui dépend de sa direction. La limite de déc. Est "secondaire".
ttnphns
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.