Régression logistique vs LDA en tant que classificateurs à deux classes

36

J'essaie de comprendre la différence statistique entre l'analyse discriminante linéaire et la régression logistique . Ai-je bien compris que, pour un problème de classification à deux classes , LDA prédit deux fonctions de densité normales (une pour chaque classe) qui crée une limite linéaire à leur intersection, alors que la régression logistique ne prédit que la fonction log-impaire entre les deux classes, crée une limite mais n'assume pas les fonctions de densité pour chaque classe?

— utilisateur1885116
source

Voir aussi une question similaire stats.stackexchange.com/q/14697/3277

— ttnphns

Une réponse liée, stats.stackexchange.com/a/31466/3277

— ttnphns

35

Il me semble que vous avez raison. La régression logistique ne prend effectivement pas de formes de densités spécifiques dans l’espace des variables prédictives, contrairement à LDA. Voici quelques différences entre les deux analyses, brièvement.

Régression logistique binaire (BLR) vs analyse discriminante linéaire (avec 2 groupes: également connu sous le nom de LDA de Fisher):

BLR : Basé sur l'estimation du maximum de vraisemblance. LDA : basé sur l'estimation des moindres carrés; équivalent à la régression linéaire avec un prédictant binaire (les coefficients sont proportionnels et le carré R = lambda de 1-Wilk).
BLR : Estime la probabilité (de l'appartenance à un groupe) immédiatement (le prédictant est lui-même pris comme probabilité, celle observée) et conditionnellement. LDA : estime la probabilité immédiatement (le prédictant est considéré comme une variable continue regroupée, le discriminant) via un dispositif de classification (tel que Bayes naïf) qui utilise des informations à la fois conditionnelles et marginales.
BLR : Pas si exigeant au niveau de l’échelle et de la forme de la distribution en prédicteurs. LDA : Il est souhaitable de prévoir un intervalle avec une distribution normale multivariée.
BLR : Aucune exigence concernant les matrices de covariance intra-groupe des prédicteurs. LDA : Les matrices de covariance au sein du groupe devraient être identiques en population.
$n$ $n$
BLR : Pas si sensible aux valeurs aberrantes. ADL : assez sensible aux valeurs aberrantes.
BLR : Méthode plus jeune. LDA : méthode plus ancienne.
BLR : Habituellement préféré, car moins exigeant / plus robuste. LDA : Avec toutes ses exigences satisfaites, se classe souvent mieux que BLR (efficacité relative asymptotique 3/2 fois plus élevée que).

— tnphns
source

21

Permettez-moi d'ajouter quelques points à la liste @ttnphns nice:

La prédiction de Bayes de la probabilité d'appartenance de classe postérieure de la LDA suit également une courbe logistique.
[Efron, B. L'efficacité de la régression logistique par rapport à l'analyse discriminante normale, J Am Stat Assoc, 70, 892-898 (1975).]
Bien que ce document montre que l'efficacité relative de la LDA est supérieure à la LR si les hypothèses de la LDA sont satisfaites (voir le document d'Efron ci-dessus, dernier point de @ ththps), selon les éléments de l'apprentissage statistique, il n'y a guère de différence.
[Hastie, T. et Tibshirani, R. et Friedman, J. Les éléments de l'apprentissage statistique; Exploration de données, inférence et prédiction Springer Verlag, New York, 2009]
Cette efficacité relative considérablement accrue de la LDA se produit principalement dans des cas asymptotiques où l’erreur absolue est de toute façon pratiquement négligeable.
[Harrell, FE & Lee, KL Comparaison de la discrimination de l'analyse discriminante et de la régression logistique en normalité multivariée, Biostatistics: Statistics in Biomedical, Sciences de la santé publique et de l'environnement, 333-343 (1985).]
Bien que dans la pratique, je me suis heurté à des situations de grande taille et de taille réduite pour les échantillons, où la LDA semble supérieure (même si la normalité multivariée et les hypothèses de matrice de covariance égale ne sont visiblement pas respectées).
[ Beleites, C .; Geiger, K .; Kirsch, M .; Sobottka, SB; Schackert, G. & Salzer, R. Raman, classement spectroscopique de tissus d'astrocytome: en utilisant des informations de référence molles., Anal Bioanal Chem, 400, 2801-2816 (2011). DOI: 10.1007 / s00216-011-4985-4 ]
Mais notons que dans notre document, la LR est peut-être aux prises avec le problème de trouver des directions avec une séparabilité (presque) parfaite. En revanche, le LDA peut être moins sévèrement survendu.
Les fameuses hypothèses de LDA ne sont nécessaires que pour prouver l’optimalité. Si elles ne sont pas remplies, la procédure peut toujours être une bonne heuristique.
Une différence qui est importante pour moi dans la pratique car les problèmes de classification sur lesquels je travaille parfois / souvent s’avèrent en réalité ne pas être aussi clairement que des problèmes de classification: la RL peut facilement être résolue avec des données où la référence a des niveaux intermédiaires d’appartenance à une classe. Après tout, il s’agit d’une technique de régression .
[voir le document lié ci-dessus]
Vous pouvez dire que RL se concentre plus que LDA sur des exemples proches de la limite de la classe et ignore en gros les cas situés à "l'arrière" des distributions.
Cela explique également pourquoi il est moins sensible aux valeurs aberrantes (c'est-à-dire situées à l'arrière) que les LDA.
(Les machines à vecteurs de support seraient un classificateur allant jusqu'au bout: ici, tout est ignoré, sauf les cas à la limite)

— cbeleites soutient Monica
source