Quelle est la relation entre la régression et l'analyse discriminante linéaire (LDA)?

24

Existe-t-il une relation entre la régression et l'analyse discriminante linéaire (LDA)? Quelles sont leurs similitudes et leurs différences? Cela fait-il une différence s'il y a deux classes ou plus de deux classes?

— zca0
source

3

Une note pour le lecteur: la question est ambiguë, elle peut être comprise comme une question de régression logistique ou de régression linéaire . Le PO semble s'intéresser aux deux aspects (voir commentaires). La réponse acceptée concerne la régression linéaire, mais certaines autres réponses se concentrent plutôt sur la régression logistique.

— Amoeba dit Reinstate Monica

20

Je suppose que la question porte sur la LDA et la régression linéaire (non logistique).

Il existe une relation considérable et significative entre la régression linéaire et l'analyse discriminante linéaire . Dans le cas où la variable dépendante (DV) se compose uniquement de 2 groupes, les deux analyses sont en fait identiques. Malgré le fait que les calculs sont différents et que les résultats - régression et coefficients discriminants - ne sont pas les mêmes, ils sont exactement proportionnels les uns aux autres.

Maintenant pour la situation de plus de deux groupes. Tout d'abord, disons que LDA (son extraction, pas son stade de classification) est équivalent (résultats linéairement liés) à l' analyse de corrélation canonique si vous transformez le regroupement DV en un ensemble de variables fictives (avec une redondante abandonnée) et faites canonique analyse avec les ensembles "IVs" et "dummies". Les variations canoniques du côté de l'ensemble "IV" que vous obtenez sont ce que LDA appelle "fonctions discriminantes" ou "discriminants".

Alors, comment l'analyse canonique est-elle liée à la régression linéaire? L'analyse canonique est par essence une MANOVA (au sens de "régression linéaire multiple multivariée" ou "modèle linéaire général multivarié") approfondie dans la structure latentedes relations entre les DV et les IV. Ces deux variations sont décomposées dans leurs interrelations en "variables canoniques" latentes. Prenons l'exemple le plus simple, Y vs X1 X2 X3. La maximisation de la corrélation entre les deux côtés est une régression linéaire (si vous prédisez Y par Xs) ou - ce qui est la même chose - est MANOVA (si vous prédisez Xs par Y). La corrélation est unidimensionnelle (avec la magnitude R ^ 2 = trace de Pillai) parce que l'ensemble moindre, Y, se compose d'une seule variable. Prenons maintenant ces deux ensembles: Y1 Y2 vs X1 x2 x3. La corrélation maximisée ici est bidimensionnelle car l'ensemble inférieur contient 2 variables. La première et latente dimension latente de la corrélation est appelée la 1ère corrélation canonique, et la partie restante, orthogonale à celle-ci, la 2e corrélation canonique. Alors, MANOVA (ou régression linéaire) demande simplement quels sont les rôles partiels (les coefficients) des variables dans toute la corrélation bidimensionnelle des ensembles; tandis que l'analyse canonique va juste en dessous pour demander quels sont les rôles partiels des variables dans la 1ère dimension corrélationnelle et dans la 2e.

Ainsi, l'analyse de corrélation canonique est une régression linéaire multivariée approfondie dans la structure latente de la relation entre les DV et les IV. L'analyse discriminante est un cas particulier d'analyse de corrélation canonique ( voir exactement comment ). Donc, voici la réponse concernant la relation entre LDA et la régression linéaire dans un cas général de plus de deux groupes.

Notez que ma réponse ne considère pas du tout le LDA comme une technique de classification. Je ne parlais de LDA que comme technique d'extraction des latentes. La classification est la deuxième étape autonome de la LDA (je l'ai décrite ici ). @Michael Chernick se concentrait là-dessus dans ses réponses.

— ttnphns
source

Pourquoi ai-je besoin d'une "analyse de corrélation canonique" et que fait-elle ici? Merci.

— zca0

1

+1 (il y a longtemps). Connaissez-vous des références qui discutent (en détail) de ce lien entre MANOVA / CCA / régression entre X et la matrice des mannequins de groupe Y et LDA (pour le cas général de plus de deux groupes)? J'étudie actuellement ce sujet, et je pense que je l'ai déjà plus ou moins compris, mais quand je recherche, regression formulation of LDAil est étonnamment difficile de trouver quelque chose - il y a plusieurs articles de recherche publiés après 2000 disant qu'une telle formulation n'existe pas ou essayer d'en suggérer un. Y a-t-il peut-être une bonne [ancienne] référence?

— amibe dit Réintégrer Monica

3

Mmm .. Juste quelques documents qui viennent à l' esprit rapidement: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Si vous ne les trouvez pas sur Internet, je peux vous les envoyer. Si vous trouvez des sources plus nombreuses et meilleures - veuillez nous en informer.

— ttnphns

1

Mon passage n'impliquait pas du tout que vous pouvez obtenir des coefficients CCA en ayant juste les résultats de régression (la MANOVA) à portée de main. Je disais que MANOVA est "surface" et CCA est des couches plus "profondes" de la même entreprise analytique. Je n'ai pas dit que ce sont des synonymes ou que l'un est un cas bien spécifique de l'autre.

— ttnphns du

1

Je vois. J'ai décidé de poster une autre réponse ici, fournissant les détails mathématiques de l'équivalence LDA / régression.

— Amoeba dit Reinstate Monica

11

Voici une référence à l'un des articles d'Efron: L'efficacité de la régression logistique par rapport à l'analyse discriminante normale , 1975.

Un autre article pertinent est Ng & Jordan, 2001, On Discriminative vs. Generative classifierers: A comparaison of logistic regression and naive Bayes . Et voici un résumé d' un commentaire de Xue & Titterington , 2008, qui mentionne les articles d'O'Neill liés à sa thèse de doctorat:

La comparaison des classificateurs génératifs et discriminants est un sujet permanent. En tant qu'apport important à ce sujet, sur la base de leurs comparaisons théoriques et empiriques entre le classificateur naïf de Bayes et la régression logistique linéaire, Ng et Jordan (NIPS 841 --- 848, 2001) ont affirmé qu'il existe deux régimes distincts de performance entre le générateur et des classificateurs discriminants en ce qui concerne la taille de l'ensemble d'apprentissage. Dans cet article, nos études empiriques et de simulation, en complément de leurs travaux, suggèrent cependant que l'existence des deux régimes distincts peut ne pas être aussi fiable. De plus, pour les ensembles de données du monde réel, il n'existe jusqu'à présent aucun critère général théoriquement correct pour choisir entre les approches discriminante et générative de classification d'une observation. $x$ dans une classe $y$ ; le choix dépend de la confiance relative que nous avons dans l'exactitude de la spécification de $p(y|x)$ ou $p(x, y)$ pour les données. Cela peut être dans une certaine mesure une démonstration de la raison pour laquelle Efron (J Am Stat Assoc 70 (352): 892 --- 898, 1975) et O'Neill (J Am Stat Assoc 75 (369): 154 --- 160, 1980 ) préfèrent l'analyse discriminante linéaire basée sur la normale (LDA) lorsqu'aucune spécification incorrecte du modèle ne se produit, mais d'autres études empiriques peuvent préférer la régression logistique linéaire à la place. En outre, nous suggérons que l'appariement de LDA en supposant une matrice de covariance diagonale commune (LDA) ou le classificateur naïf de Bayes et la régression logistique linéaire peuvent ne pas être parfaits, et donc il peut ne pas être fiable pour toute allégation dérivée de la comparaison entre LDA ou le classificateur naïf de Bayes et la régression logistique linéaire à généraliser à tous les classificateurs génératifs et discriminants.

Il existe de nombreuses autres références à ce sujet que vous pouvez trouver en ligne.

— Michael R. Chernick
source

+1 pour les nombreuses références bien placées sur le sujet (désormais clarifié par le PO) de la régression logistique vs LDA.

— Macro

1

Voici une autre comparaison des classificateurs génératifs et discriminants de Yaroslav Bulatov sur Quora: quora.com/…

— Pardis

Également un sujet connexe, stats.stackexchange.com/q/95247/3277

— ttnphns

7

Le but de cette réponse est d'expliquer la relation mathématique exacte entre l'analyse discriminante linéaire (LDA) et la régression linéaire multivariée (MLR). Il s'avérera que le cadre correct est fourni par une régression de rang réduite (RRR).

Nous montrerons que LDA est équivalent à RRR de la matrice d'indicateur de classe blanchie sur la matrice de données.

Notation

Soit la matrice avec les points de données en lignes et les variables en colonnes. Chaque point appartient à l'une des classes ou groupes. Le point appartient au numéro de classe $\newcommand{\X}{\mathbf X}\X$ $n\times d$ $\newcommand{\x}{\mathbf x}\x_i$ $k$ $\x_i$ $g(i)$ .

Soit la matrice indicatrice codant l'appartenance au groupe comme suit: si appartient à la classe , et sinon. Il y a points de données dans la classe ; bien sûr . $\newcommand{\G}{\mathbf G}\G$ $n \times k$ $G_{ij}=1$ $\x_i$ $j$ $G_{ij}=0$ $n_j$ $j$ $\sum n_j = n$

Nous supposons que les données sont centrées et que la moyenne globale est donc égale à zéro, . Soit la moyenne de la classe . $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ $\bmu_j$ $j$

LDA

La matrice de diffusion totale peut être décomposée en la somme des matrices de diffusion inter-classe et intra-classe définies comme suit: $\newcommand{\C}{\mathbf C}\C=\X^\top \X$ On peut vérifier que. LDA recherche des axes discriminants qui ont une variance entre groupes maximale et une variance intra-groupe minimale de la projection. Plus précisément, le premier axe discriminant est le vecteur unitairemaximisant

\begin{aligned} C_{b} & = \sum_{j} n_{j} μ_{j} μ_{j}^{⊤} \\ C_{w} & = \sum (x_{i} - μ_{g (i)}) (x_{i} - μ_{g (i)})^{⊤} . \end{aligned}

$\begin{align} \C_b &= \sum_j n_j \bmu_j \bmu_j^\top \\ \C_w &= \sum(\x_i - \bmu_{g(i)})(\x_i - \bmu_{g(i)})^\top. \end{align}$

C = C_{b} + C_{w}

$\C = \C_b + \C_w$

w

$\newcommand{\w}{\mathbf w}\w$

, et les

premiersaxes discriminants empilés ensemble dans une matrice

devraient maximiser la trace

w^{⊤} C_{b} w / (w^{⊤} C_{w} w)

$\w^\top \C_b \w / (\w^\top \C_w \w)$

p

$p$

W

$\newcommand{\W}{\mathbf W}\W$

L_{L D A} = tr (W^{⊤} C_{b} W (W^{⊤} C_{w} W)^{- 1}) .

$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$

En supposant que est de rang complet, la solution LDA est la matrice des vecteurs propres de $\C_w$ $\W_\mathrm{LDA}$ $\C_w^{-1} \C_b$ (ordonnée par les valeurs propres dans l'ordre décroissant).

C'était l'histoire habituelle. Faisons maintenant deux observations importantes.

$b/w$ $b/(b+w)$ $\C^{-1} \C_b$

$\G^\top \X$ $n_j$ $\G^\top \G$ $(\G^\top \G)^{-1}\G^\top \X$ $\C_b$

C_{b} = X^{⊤} G (G^{⊤} G)^{- 1} G^{⊤} X .

$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$

n_{j}

$n_j$

m

$m$

X^{⊤} G G^{⊤} X / m

$\X^\top \G \G^\top \X / m$

$\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ $1/\sqrt{n_j}$ $\G$ $1$ $\C_b = \X^\top \tG \tG^\top \X$ $\tG$ $\tG = \G(\G^\top \G)^{-1/2}$ .

Régression

Par souci de simplicité, nous commencerons par le cas d'un ensemble de données équilibré.

$\G$ $\X$ $\newcommand{\B}{\mathbf B}\B$ $\| \G - \X \B\|^2$ $\B$ $p$ $\B$ $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ $\D$ $\F$ $p$ colonnes. On peut montrer que la solution de rang 2 peut être obtenue à partir de la solution de rang en conservant la première colonne et en ajoutant une colonne supplémentaire, etc.

$\D$ $\W_\mathrm{LDA}$ .

$\D$ $\F$ $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$

‖ G - X D (D^{⊤} X^{⊤} X D)^{- 1} D^{⊤} X^{⊤} G ‖^{2},

$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$

‖ A ‖^{2} = t r (A A^{⊤})

$\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$

tr (D^{⊤} X^{⊤} G G^{⊤} X D (D^{⊤} X^{⊤} X D)^{- 1}),

$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$

\dots = tr (D^{⊤} C_{b} D (D^{⊤} C D)^{- 1}) / m \sim L_{L D A} .

$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$

$\G$ $\tG$

On peut également montrer que l'ajout de la régularisation des crêtes à la régression de rang réduit équivaut à la LDA régularisée.

Relation entre LDA, CCA et RRR

$\X$ $\G$ $\newcommand{\Y}{\mathbf Y}\Y$ $\X$ $\Y$ $\X$

Bibliographie

Il est difficile de dire qui mérite le mérite de ce qui est présenté ci-dessus.

Il existe un récent document de conférence de Cai et al. (2013) On The Equivalent of Low-Rank Regressions and Linear Discriminant Analysis Regressions qui présente exactement la même preuve que ci-dessus mais donne l'impression d'avoir inventé cette approche. Ce n'est certainement pas le cas. Torre a écrit un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes peuvent être considérées comme une régression de rang réduite, voir A Least-Squares Framework for Component Analysis , 2009, et un chapitre ultérieur du livre A unification of component analysis methods , 2013; il présente le même argument mais ne donne aucune référence non plus. Ce matériel est également couvert dans le manuel Modern Multivariate Statistical Techniques (2008) par Izenman, qui a introduit le RRR en 1975.

La relation entre LDA et CCA remonte apparemment à Bartlett, 1938, Autres aspects de la théorie de la régression multiple - c'est la référence que je rencontre souvent (mais que je n'ai pas vérifiée). La relation entre le CCA et le RRR est décrite dans Izenman, 1975, régression à rang réduit pour le modèle linéaire multivarié . Donc, toutes ces idées existent depuis un certain temps.

— amibe dit réintégrer Monica
source

+1 de ma part pour les détails et pour avoir fait référence à ma réponse et pour avoir introduit le RRR ici (voter à l'avance parce qu'il passera un certain temps inconnu avant de m'asseoir pour déchirer toute cette magnifique / formidable algèbre!).

— ttnphns

0

La régression linéaire et l'analyse discriminante linéaire sont très différentes. La régression linéaire relie une variable dépendante à un ensemble de variables prédictives indépendantes. L'idée est de trouver une fonction linéaire dans les paramètres qui correspond le mieux aux données. Elle n'a même pas besoin d'être linéaire dans les covariables. L'analyse discriminante linéaire, d'autre part, est une procédure de classification des objets en catégories. Pour le problème à deux classes, il cherche à trouver le meilleur hyperplan de séparation pour diviser les groupes en deux catégories. Ici, mieux signifie qu'il minimise une fonction de perte qui est une combinaison linéaire des taux d'erreur. Pour trois groupes ou plus, il trouve le meilleur ensemble d'hyperplans (k-1 pour le problème de classe k). Dans l'analyse discriminante, les hypo-avions sont linéaires dans les variables caractéristiques.

La principale similitude entre les deux est le terme linéaire dans les titres.

— Michael R. Chernick
source

Désolé, j'ai mal écrit. Devrait être la régression et la LDA. J'ai vu quelques articles sur les discriminants linéaires via la régression, mais je ne sais pas comment cela fonctionne. Je pense que le LDA et la régression logistique pour deux classes ont des relations mais ne peuvent pas dire très clairement ce qu'elles sont. Et pour plus de deux classes, je ne sais pas s'il y a des relations.

— zca0

1

Oui, il existe une relation entre la régression logistique et l'analyse discriminante linéaire. Efron et son élève Terry O'Neilll ont écrit à ce sujet à la fin des années 1970. Je vais essayer de trouver un lien vers une référence.

— Michael R. Chernick

2

Voici une question et des réponses sur CV. stats.stackexchange.com/questions/14697/…

— Michael R. Chernick

-1 car il existe en réalité une relation profonde entre LDA et la régression, comme l'expliquent @ttnphns et moi-même dans nos réponses.

— Amoeba dit Reinstate Monica