Analyse discriminante vs régression logistique

J'ai trouvé des pros de l'analyse discriminante et j'ai des questions à leur sujet. Donc:

Lorsque les classes sont bien séparées, les estimations des paramètres de régression logistique sont étonnamment instables. Les coefficients peuvent aller à l'infini. LDA ne souffre pas de ce problème.

Si le nombre de caractéristiques est petit et que la distribution des prédicteurs $X$ est approximativement normale dans chacune des classes, le modèle discriminant linéaire est à nouveau plus stable que le modèle de régression logistique.

Qu'est-ce que la stabilité et pourquoi est-elle importante? (Si la régression logistique fournit un bon ajustement qui fait son travail, alors pourquoi devrais-je me soucier de la stabilité?)

LDA est populaire lorsque nous avons plus de deux classes de réponses, car il fournit également des vues en basse dimension des données.

Je ne comprends tout simplement pas cela. Comment LDA fournit-il des vues à faible dimension?
Si vous pouvez nommer plus d'avantages ou d'inconvénients, ce serait bien.

— Yurii
source

Vous pouvez également lire d'autres questions / réponses sur ce sujet (lda vs logistic). Veuillez rechercher ce site.

— ttnphns

Réponses:

Lorsque les classes sont bien séparées, les estimations des paramètres de régression logistique sont étonnamment instables. Les coefficients peuvent aller à l'infini. LDA ne souffre pas de ce problème.

S'il existe des valeurs de covariables qui peuvent prédire parfaitement le résultat binaire, l'algorithme de régression logistique, c'est-à-dire le score de Fisher, ne converge même pas. Si vous utilisez R ou SAS, vous recevrez un avertissement indiquant que des probabilités de zéro et une ont été calculées et que l'algorithme s'est écrasé. C'est le cas extrême de la séparation parfaite, mais même si les données ne sont séparées que dans une large mesure et pas parfaitement, l'estimateur du maximum de vraisemblance pourrait ne pas exister et même s'il existe, les estimations ne sont pas fiables. L'ajustement résultant n'est pas bon du tout. Il existe de nombreux sujets traitant du problème de la séparation sur ce site, alors jetez un œil.

En revanche, on ne rencontre pas souvent de problèmes d'estimation avec le discriminant de Fisher. Cela peut toujours se produire si la matrice de covariance entre ou à l'intérieur est singulière, mais c'est un cas assez rare. En fait, s'il y a séparation complète ou quasi complète, tant mieux car le discriminant a plus de chances de réussir.

Il convient également de mentionner que contrairement à la croyance populaire, la LDA n'est basée sur aucune hypothèse de distribution. Nous ne demandons implicitement que l'égalité des matrices de covariance de la population, car un estimateur groupé est utilisé pour la matrice de covariance intra. Selon les hypothèses supplémentaires de normalité, de probabilités antérieures égales et de coûts de classification erronée, la LDA est optimale en ce sens qu'elle minimise la probabilité de classification erronée.

Comment LDA fournit-il des vues à faible dimension?

Il est plus facile de voir cela pour le cas de deux populations et de deux variables. Voici une représentation graphique du fonctionnement de LDA dans ce cas. N'oubliez pas que nous recherchons des combinaisons linéaires des variables qui maximisent la séparabilité.

Les données sont donc projetées sur le vecteur dont la direction permet de mieux réaliser cette séparation. Comment nous trouvons que le vecteur est un problème intéressant d'algèbre linéaire, nous maximisons essentiellement un quotient de Rayleigh, mais laissons cela de côté pour l'instant. Si les données sont projetées sur ce vecteur, la dimension est réduite de deux à un.

$p$ $g$ $\min(g-1,p)$

Si vous pouvez nommer plus d'avantages ou d'inconvénients, ce serait bien.

La représentation de faible dimension n'est cependant pas sans inconvénients, le plus important étant bien sûr la perte d'informations. C'est moins un problème lorsque les données sont linéairement séparables, mais si elles ne le sont pas, la perte d'informations peut être substantielle et le classificateur fonctionnera mal.

Il pourrait également y avoir des cas où l'égalité des matrices de covariance pourrait ne pas être une hypothèse tenable. Vous pouvez utiliser un test pour vous en assurer, mais ces tests sont très sensibles aux écarts par rapport à la normalité, vous devez donc faire cette hypothèse supplémentaire et également la tester. S'il s'avère que les populations sont normales avec des matrices de covariance inégales, une règle de classification quadratique pourrait être utilisée à la place (QDA) mais je trouve que c'est une règle plutôt maladroite, sans parler de contre-intuitif dans les dimensions élevées.

Dans l'ensemble, le principal avantage du LDA est l'existence d'une solution explicite et sa commodité de calcul, ce qui n'est pas le cas pour les techniques de classification plus avancées telles que SVM ou les réseaux de neurones. Le prix que nous payons est l'ensemble des hypothèses qui vont avec, à savoir la séparabilité linéaire et l'égalité des matrices de covariance.

J'espère que cela t'aides.

EDIT : Je soupçonne que mon affirmation selon laquelle la LDA sur les cas spécifiques que j'ai mentionnés n'exige aucune hypothèse de distribution autre que l'égalité des matrices de covariance m'a coûté un downvote. Ce n'est pas moins vrai néanmoins, alors permettez-moi d'être plus précis.

$\bar{\mathbf{x}}_i, \ i = 1,2$ $\mathbf{S}_{\text{pooled}}$

max_{une} \frac{{({une}^{T} {\bar{X}}_{1} - {une}^{T} {\bar{X}}_{2})}^{2}}{{une}^{T} S_{regroupé} une} = max_{une} \frac{{({une}^{T} ré)}^{2}}{{une}^{T} S_{regroupé} une}

$\max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \bar{\mathbf{x}}_1 - \mathbf{a}^{T} \bar{\mathbf{x}}_2 \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} } = \max_{\mathbf{a}} \frac{ \left( \mathbf{a}^{T} \mathbf{d} \right)^2}{\mathbf{a}^{T} \mathbf{S}_{\text{pooled}} \mathbf{a} }$

On peut montrer que la solution de ce problème (jusqu'à une constante) est

une = S_{regroupé}^{- 1} ré = S_{regroupé}^{- 1} ({\bar{X}}_{1} - {\bar{X}}_{2})

$\mathbf{a} = \mathbf{S}_{\text{pooled}}^{-1} \mathbf{d} = \mathbf{S}_{\text{pooled}}^{-1} \left( \bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2 \right)$

C'est l'équivalent de la LDA que vous dérivez sous l'hypothèse de normalité, de matrices de covariance égales, de coûts de classification erronée et de probabilités antérieures, n'est-ce pas? Eh bien oui, sauf maintenant que nous n'avons pas assumé la normalité.

Rien ne vous empêche d'utiliser le discriminant ci-dessus dans tous les paramètres, même si les matrices de covariance ne sont pas vraiment égales. Il n'est peut-être pas optimal dans le sens du coût prévu d'une mauvaise classification (ECM), mais il s'agit d'un apprentissage supervisé afin que vous puissiez toujours évaluer ses performances, en utilisant par exemple la procédure de maintien.

Les références

Bishop, Christopher M. Réseaux de neurones pour la reconnaissance des formes. Oxford University Press, 1995.

Johnson, Richard Arnold et Dean W. Wichern. Analyse statistique multivariée appliquée. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.

— JohnK
source

(Je ne suis pas l'utilisateur qui a rétrogradé). Pour essayer de concilier votre réponse avec celle de Frank Harell, il me semble qu'il faut encore supposer que toutes les variables sont continues (sinon je pense que le maximum du quotient de Rayleigh ne serait pas unique).

— user603

@ user603 Je n'ai vu nulle part cette condition. La solution n'est de toute façon déterminée que jusqu'à une constante.

— JohnK

John, Imaginez qu'il n'y a que 2 classes (et donc, une seule ligne discriminante) ayant des distributions identiques, symétriques (ellipsoïdales) et des probabilités a priori égales. Ensuite, nous n'avons en fait pas besoin de supposer une distribution spécifiquement normale car nous n'avons pas besoin de pdf pour assigner un cas à une classe. Dans des contextes plus complexes (comme les classes 3+), nous devons utiliser du pdf, et c'est généralement normal.

— ttnphns

@ttnphns Je vois votre point mais cela ne fait pas partie des hypothèses que vous utilisez pour dériver le discriminant de Fisher même dans les cas complexes. Dans ces paramètres, vous travaillez avec les valeurs propres / vecteurs propres de la matrice où est la matrice de covariance interne et entre les deux. Ensuite, vous pouvez affecter des classes en utilisant la distribution normale habituelle, mais vous pouvez également utiliser autre chose si vous le souhaitez. Cela n'invalide pas l'approche.

W^{- 1} B

$\mathbf{W}^{-1} \mathbf{B}$

W

$\mathbf{W}$

B

$\mathbf{B}$

— JohnK

John, votre dernier commentaire est que vous et moi sommes d'accord.

— ttnphns

LDA fait des hypothèses de distribution sévères (normalité multivariée de tous les prédicteurs) contrairement à la régression logistique. Essayez d'obtenir des probabilités postérieures d'appartenance à la classe en fonction du sexe des sujets et vous verrez ce que je veux dire - les probabilités ne seront pas précises.

$Y=1$ $\beta$ $\pm \infty$ $\pm 30$

Voir ceci pour plus d'informations.

Notez que si la normalité multivariable est vérifiée, selon le théorème de Bayes, les hypothèses de régression logistique sont valables. L'inverse n'est pas vrai.

La normalité (ou à tout le moins la symétrie) doit presque tenir pour que les variances et les covariances "fassent le travail". Les prédicteurs non multivariés normalement distribués nuiront même à la phase d'extraction discriminante.

— Frank Harrell
source

À mon avis, la normalité est nécessaire spécifiquement au stade de la classification (prédiction de classe) de la LDA. Elle n'est pas nécessaire au stade de l'extraction des discriminants (réduction de la dimensionnalité), qui, cependant, suppose toujours une homogénéité variance-covariance. (Fait intéressant, cette dernière hypothèse peut être quelque peu émise lors de la classification: vous pouvez utiliser des covariances intra-classe distinctes pour les discriminants là-bas.)

— ttnphns

t

$t$

t

$t$

t

$t$

Oui, SD fait diverses hypothèses et n'est pas robuste. Dans une moindre mesure, la moyenne suppose que certaines hypothèses sont significatives. Les moindres carrés, PCA et LDA émettent effectivement plus d'hypothèses de distribution que ne le pensent de nombreuses personnes.

— Frank Harrell

Je ne suis pas convaincu par ce raisonnement et je pense toujours que le downvote était injuste mais je n'ai aucune autorité en la matière. Les références que j'ai fournies vous diront la même chose cependant.

— JohnK

Lorsque les classes sont bien séparées, les estimations des paramètres de régression logistique sont étonnamment instables. Les coefficients peuvent aller à l'infini. LDA ne souffre pas de ce problème.

Avertissement: Ce qui suit ici manque complètement de rigueur mathématique.

Pour bien ajuster une fonction (non linéaire), vous avez besoin d'observations dans toutes les régions de la fonction où "sa forme change". La régression logistique ajuste une fonction sigmoïde aux données:

Dans le cas de classes bien séparées, toutes les observations tomberont aux deux "extrémités" où le sigmoïde s'approche de ses asymptotes (0 et 1). Étant donné que tous les sigmoïdes "se ressemblent" dans ces régions, pour ainsi dire, il n'est pas étonnant que le mauvais algorithme d'ajustement aura des difficultés à trouver "le bon".

Jetons un coup d'œil à deux exemples (espérons-le instructifs) calculés avec la glm()fonction de R.

Cas 1: Les deux groupes se chevauchent dans une certaine mesure:

et les observations se répartissent bien autour du point d'inflexion du sigmoïde ajusté:

Ce sont les paramètres ajustés avec de belles erreurs standard faibles:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

et la déviance semble également OK:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Cas 2: Les deux groupes sont bien séparés:

et les observations se trouvent toutes sur les asymptotes pratiquement. La glm()fonction a fait de son mieux pour s'adapter à quelque chose, mais s'est plainte des probabilités numériques de 0 ou 1, car il n'y a tout simplement pas d'observations disponibles pour "obtenir la bonne forme de la sigmoïde" autour de son point d'inflexion:

Vous pouvez diagnostiquer le problème en notant que les erreurs standard des paramètres estimés passent par le toit:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

et en même temps la déviance semble étrangement bonne (parce que les observations correspondent bien aux asymptotes):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Au moins intuitivement, il devrait être clair à partir de ces considérations pourquoi "les estimations des paramètres pour la régression logistique sont étonnamment instables".

— Laryx Decidua
source

Regardez la réponse de @Frank Harrell qui est clairement en désaccord avec vous! Et étudiez ses liens et références ...

— kjetil b halvorsen

@kjetilbhalvorsen Mon point principal est une illustration intuitive de l'ajustement "étonnamment instable". J'ai supprimé la dernière phrase faisant référence à la LDA.

— Laryx Decidua