Existe-t-il une relation entre la régression et l'analyse discriminante linéaire (LDA)? Quelles sont leurs similitudes et leurs différences? Cela fait-il une différence s'il y a deux classes ou plus de deux classes?
Existe-t-il une relation entre la régression et l'analyse discriminante linéaire (LDA)? Quelles sont leurs similitudes et leurs différences? Cela fait-il une différence s'il y a deux classes ou plus de deux classes?
Réponses:
Je suppose que la question porte sur la LDA et la régression linéaire (non logistique).
Il existe une relation considérable et significative entre la régression linéaire et l'analyse discriminante linéaire . Dans le cas où la variable dépendante (DV) se compose uniquement de 2 groupes, les deux analyses sont en fait identiques. Malgré le fait que les calculs sont différents et que les résultats - régression et coefficients discriminants - ne sont pas les mêmes, ils sont exactement proportionnels les uns aux autres.
Maintenant pour la situation de plus de deux groupes. Tout d'abord, disons que LDA (son extraction, pas son stade de classification) est équivalent (résultats linéairement liés) à l' analyse de corrélation canonique si vous transformez le regroupement DV en un ensemble de variables fictives (avec une redondante abandonnée) et faites canonique analyse avec les ensembles "IVs" et "dummies". Les variations canoniques du côté de l'ensemble "IV" que vous obtenez sont ce que LDA appelle "fonctions discriminantes" ou "discriminants".
Alors, comment l'analyse canonique est-elle liée à la régression linéaire? L'analyse canonique est par essence une MANOVA (au sens de "régression linéaire multiple multivariée" ou "modèle linéaire général multivarié") approfondie dans la structure latentedes relations entre les DV et les IV. Ces deux variations sont décomposées dans leurs interrelations en "variables canoniques" latentes. Prenons l'exemple le plus simple, Y vs X1 X2 X3. La maximisation de la corrélation entre les deux côtés est une régression linéaire (si vous prédisez Y par Xs) ou - ce qui est la même chose - est MANOVA (si vous prédisez Xs par Y). La corrélation est unidimensionnelle (avec la magnitude R ^ 2 = trace de Pillai) parce que l'ensemble moindre, Y, se compose d'une seule variable. Prenons maintenant ces deux ensembles: Y1 Y2 vs X1 x2 x3. La corrélation maximisée ici est bidimensionnelle car l'ensemble inférieur contient 2 variables. La première et latente dimension latente de la corrélation est appelée la 1ère corrélation canonique, et la partie restante, orthogonale à celle-ci, la 2e corrélation canonique. Alors, MANOVA (ou régression linéaire) demande simplement quels sont les rôles partiels (les coefficients) des variables dans toute la corrélation bidimensionnelle des ensembles; tandis que l'analyse canonique va juste en dessous pour demander quels sont les rôles partiels des variables dans la 1ère dimension corrélationnelle et dans la 2e.
Ainsi, l'analyse de corrélation canonique est une régression linéaire multivariée approfondie dans la structure latente de la relation entre les DV et les IV. L'analyse discriminante est un cas particulier d'analyse de corrélation canonique ( voir exactement comment ). Donc, voici la réponse concernant la relation entre LDA et la régression linéaire dans un cas général de plus de deux groupes.
Notez que ma réponse ne considère pas du tout le LDA comme une technique de classification. Je ne parlais de LDA que comme technique d'extraction des latentes. La classification est la deuxième étape autonome de la LDA (je l'ai décrite ici ). @Michael Chernick se concentrait là-dessus dans ses réponses.
regression formulation of LDA
il est étonnamment difficile de trouver quelque chose - il y a plusieurs articles de recherche publiés après 2000 disant qu'une telle formulation n'existe pas ou essayer d'en suggérer un. Y a-t-il peut-être une bonne [ancienne] référence?
Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
. Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Si vous ne les trouvez pas sur Internet, je peux vous les envoyer. Si vous trouvez des sources plus nombreuses et meilleures - veuillez nous en informer.
Voici une référence à l'un des articles d'Efron: L'efficacité de la régression logistique par rapport à l'analyse discriminante normale , 1975.
Un autre article pertinent est Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: A comparaison of logistic regression and naive Bayes . Et voici un résumé d' un commentaire de Xue & Titterington , 2008, qui mentionne les articles d'O'Neill liés à sa thèse de doctorat:
La comparaison des classificateurs génératifs et discriminants est un sujet permanent. En tant qu'apport important à ce sujet, sur la base de leurs comparaisons théoriques et empiriques entre le classificateur naïf de Bayes et la régression logistique linéaire, Ng et Jordan (NIPS 841 --- 848, 2001) ont affirmé qu'il existe deux régimes distincts de performance entre le générateur et des classificateurs discriminants en ce qui concerne la taille de l'ensemble d'apprentissage. Dans cet article, nos études empiriques et de simulation, en complément de leurs travaux, suggèrent cependant que l'existence des deux régimes distincts peut ne pas être aussi fiable. De plus, pour les ensembles de données du monde réel, il n'existe jusqu'à présent aucun critère général théoriquement correct pour choisir entre les approches discriminante et générative de classification d'une observation. dans une classe ; le choix dépend de la confiance relative que nous avons dans l'exactitude de la spécification de ou pour les données. Cela peut être dans une certaine mesure une démonstration de la raison pour laquelle Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) et O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) préfèrent l'analyse discriminante linéaire basée sur la normale (LDA) lorsqu'aucune spécification incorrecte du modèle ne se produit, mais d'autres études empiriques peuvent préférer la régression logistique linéaire à la place. En outre, nous suggérons que l'appariement de LDA en supposant une matrice de covariance diagonale commune (LDA) ou le classificateur naïf de Bayes et la régression logistique linéaire peuvent ne pas être parfaits, et donc il peut ne pas être fiable pour toute allégation dérivée de la comparaison entre LDA ou le classificateur naïf de Bayes et la régression logistique linéaire à généraliser à tous les classificateurs génératifs et discriminants.
Il existe de nombreuses autres références à ce sujet que vous pouvez trouver en ligne.
Le but de cette réponse est d'expliquer la relation mathématique exacte entre l'analyse discriminante linéaire (LDA) et la régression linéaire multivariée (MLR). Il s'avérera que le cadre correct est fourni par une régression de rang réduite (RRR).
Nous montrerons que LDA est équivalent à RRR de la matrice d'indicateur de classe blanchie sur la matrice de données.
Soit la matrice n × d avec les points de données x i en lignes et les variables en colonnes. Chaque point appartient à l'une des k classes ou groupes. Le point x i appartient au numéro de classe g ( i ) .
Soit la matrice indicatrice n × k codant l'appartenance au groupe comme suit: G i j = 1 si x i appartient à la classe j , et G i j = 0 sinon. Il y a n j points de données dans la classe j ; bien sûr ∑ n j = n .
Nous supposons que les données sont centrées et que la moyenne globale est donc égale à zéro, . Soit μ j la moyenne de la classe j .
La matrice de diffusion totale peut être décomposée en la somme des matrices de diffusion inter-classe et intra-classe définies comme suit: C b On peut vérifier queC=Cb+Cw. LDA recherche des axes discriminants qui ont une variance entre groupes maximale et une variance intra-groupe minimale de la projection. Plus précisément, le premier axe discriminant est le vecteur unitairewmaximisantw⊤Cbw/(w⊤C
En supposant que est de rang complet, la solution LDA W L D A est la matrice des vecteurs propres de C - 1 w C b (ordonnée par les valeurs propres dans l'ordre décroissant).
C'était l'histoire habituelle. Faisons maintenant deux observations importantes.
Par souci de simplicité, nous commencerons par le cas d'un ensemble de données équilibré.
colonnes. On peut montrer que la solution de rang 2 peut être obtenue à partir de la solution de rang en conservant la première colonne et en ajoutant une colonne supplémentaire, etc.
.
On peut également montrer que l'ajout de la régularisation des crêtes à la régression de rang réduit équivaut à la LDA régularisée.
Il est difficile de dire qui mérite le mérite de ce qui est présenté ci-dessus.
Il existe un récent document de conférence de Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Regressions qui présente exactement la même preuve que ci-dessus mais donne l'impression d'avoir inventé cette approche. Ce n'est certainement pas le cas. Torre a écrit un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes peuvent être considérées comme une régression de rang réduite, voir A Least-Squares Framework for Component Analysis , 2009, et un chapitre ultérieur du livre A unification of component analysis methods , 2013; il présente le même argument mais ne donne aucune référence non plus. Ce matériel est également couvert dans le manuel Modern Multivariate Statistical Techniques (2008) par Izenman, qui a introduit le RRR en 1975.
La relation entre LDA et CCA remonte apparemment à Bartlett, 1938, Autres aspects de la théorie de la régression multiple - c'est la référence que je rencontre souvent (mais que je n'ai pas vérifiée). La relation entre le CCA et le RRR est décrite dans Izenman, 1975, régression à rang réduit pour le modèle linéaire multivarié . Donc, toutes ces idées existent depuis un certain temps.
La régression linéaire et l'analyse discriminante linéaire sont très différentes. La régression linéaire relie une variable dépendante à un ensemble de variables prédictives indépendantes. L'idée est de trouver une fonction linéaire dans les paramètres qui correspond le mieux aux données. Elle n'a même pas besoin d'être linéaire dans les covariables. L'analyse discriminante linéaire, d'autre part, est une procédure de classification des objets en catégories. Pour le problème à deux classes, il cherche à trouver le meilleur hyperplan de séparation pour diviser les groupes en deux catégories. Ici, mieux signifie qu'il minimise une fonction de perte qui est une combinaison linéaire des taux d'erreur. Pour trois groupes ou plus, il trouve le meilleur ensemble d'hyperplans (k-1 pour le problème de classe k). Dans l'analyse discriminante, les hypo-avions sont linéaires dans les variables caractéristiques.
La principale similitude entre les deux est le terme linéaire dans les titres.