Lorsque les classes sont bien séparées, les estimations des paramètres de régression logistique sont étonnamment instables. Les coefficients peuvent aller à l'infini. LDA ne souffre pas de ce problème.
S'il existe des valeurs de covariables qui peuvent prédire parfaitement le résultat binaire, l'algorithme de régression logistique, c'est-à-dire le score de Fisher, ne converge même pas. Si vous utilisez R ou SAS, vous recevrez un avertissement indiquant que des probabilités de zéro et une ont été calculées et que l'algorithme s'est écrasé. C'est le cas extrême de la séparation parfaite, mais même si les données ne sont séparées que dans une large mesure et pas parfaitement, l'estimateur du maximum de vraisemblance pourrait ne pas exister et même s'il existe, les estimations ne sont pas fiables. L'ajustement résultant n'est pas bon du tout. Il existe de nombreux sujets traitant du problème de la séparation sur ce site, alors jetez un œil.
En revanche, on ne rencontre pas souvent de problèmes d'estimation avec le discriminant de Fisher. Cela peut toujours se produire si la matrice de covariance entre ou à l'intérieur est singulière, mais c'est un cas assez rare. En fait, s'il y a séparation complète ou quasi complète, tant mieux car le discriminant a plus de chances de réussir.
Il convient également de mentionner que contrairement à la croyance populaire, la LDA n'est basée sur aucune hypothèse de distribution. Nous ne demandons implicitement que l'égalité des matrices de covariance de la population, car un estimateur groupé est utilisé pour la matrice de covariance intra. Selon les hypothèses supplémentaires de normalité, de probabilités antérieures égales et de coûts de classification erronée, la LDA est optimale en ce sens qu'elle minimise la probabilité de classification erronée.
Comment LDA fournit-il des vues à faible dimension?
Il est plus facile de voir cela pour le cas de deux populations et de deux variables. Voici une représentation graphique du fonctionnement de LDA dans ce cas. N'oubliez pas que nous recherchons des combinaisons linéaires des variables qui maximisent la séparabilité.
Les données sont donc projetées sur le vecteur dont la direction permet de mieux réaliser cette séparation. Comment nous trouvons que le vecteur est un problème intéressant d'algèbre linéaire, nous maximisons essentiellement un quotient de Rayleigh, mais laissons cela de côté pour l'instant. Si les données sont projetées sur ce vecteur, la dimension est réduite de deux à un.
pg min ( g- 1 , p )
Si vous pouvez nommer plus d'avantages ou d'inconvénients, ce serait bien.
La représentation de faible dimension n'est cependant pas sans inconvénients, le plus important étant bien sûr la perte d'informations. C'est moins un problème lorsque les données sont linéairement séparables, mais si elles ne le sont pas, la perte d'informations peut être substantielle et le classificateur fonctionnera mal.
Il pourrait également y avoir des cas où l'égalité des matrices de covariance pourrait ne pas être une hypothèse tenable. Vous pouvez utiliser un test pour vous en assurer, mais ces tests sont très sensibles aux écarts par rapport à la normalité, vous devez donc faire cette hypothèse supplémentaire et également la tester. S'il s'avère que les populations sont normales avec des matrices de covariance inégales, une règle de classification quadratique pourrait être utilisée à la place (QDA) mais je trouve que c'est une règle plutôt maladroite, sans parler de contre-intuitif dans les dimensions élevées.
Dans l'ensemble, le principal avantage du LDA est l'existence d'une solution explicite et sa commodité de calcul, ce qui n'est pas le cas pour les techniques de classification plus avancées telles que SVM ou les réseaux de neurones. Le prix que nous payons est l'ensemble des hypothèses qui vont avec, à savoir la séparabilité linéaire et l'égalité des matrices de covariance.
J'espère que cela t'aides.
EDIT : Je soupçonne que mon affirmation selon laquelle la LDA sur les cas spécifiques que j'ai mentionnés n'exige aucune hypothèse de distribution autre que l'égalité des matrices de covariance m'a coûté un downvote. Ce n'est pas moins vrai néanmoins, alors permettez-moi d'être plus précis.
X¯je, i = 1 , 2 Sregroupé
maxune( unTX¯1- unTX¯2)2uneTSregroupéune= maxune( unTd )2uneTSregroupéune
On peut montrer que la solution de ce problème (jusqu'à une constante) est
a = S- 1regroupéd = S- 1regroupé( x¯1- x¯2)
C'est l'équivalent de la LDA que vous dérivez sous l'hypothèse de normalité, de matrices de covariance égales, de coûts de classification erronée et de probabilités antérieures, n'est-ce pas? Eh bien oui, sauf maintenant que nous n'avons pas assumé la normalité.
Rien ne vous empêche d'utiliser le discriminant ci-dessus dans tous les paramètres, même si les matrices de covariance ne sont pas vraiment égales. Il n'est peut-être pas optimal dans le sens du coût prévu d'une mauvaise classification (ECM), mais il s'agit d'un apprentissage supervisé afin que vous puissiez toujours évaluer ses performances, en utilisant par exemple la procédure de maintien.
Les références
Bishop, Christopher M. Réseaux de neurones pour la reconnaissance des formes. Oxford University Press, 1995.
Johnson, Richard Arnold et Dean W. Wichern. Analyse statistique multivariée appliquée. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.