En effectuant mes activités d'excavation sur des questions sans réponse, j'ai trouvé celle-ci très sensible, à laquelle, je suppose, le PO a maintenant trouvé une réponse.
Mais j'ai réalisé que j'avais moi-même diverses questions concernant la question de la séparation parfaite dans la régression logistique, et une recherche (rapide) dans la littérature, ne semblait pas y répondre. J'ai donc décidé de lancer mon propre projet de recherche (probablement en réinventant la roue), et avec cette réponse, je voudrais partager certains de ses résultats préliminaires. Je crois que ces résultats contribuent à comprendre si la question de la séparation parfaite est purement «technique» ou si elle peut être donnée une description / explication plus intuitive.
Ma première préoccupation était de comprendre le phénomène en termes algorithmiques, plutôt qu'en théorie générale: dans quelles conditions l'approche d'estimation du maximum de vraisemblance "s'effondrera" si elle est alimentée par un échantillon de données qui contient un régresseur pour lequel le phénomène de parfait la séparation existe?
Les résultats préliminaires (théoriques et simulés) indiquent que:
1) Il importe qu'un terme constant soit inclus dans la spécification logit.
2) Il importe que le régresseur en question soit dichotomique (dans l'échantillon) ou non.
3) Si dichotomique, il peut être important qu'il prenne la valeur ou non.
4) Il importe que d'autres régresseurs soient présents ou non dans la spécification.
5) Il importe de combiner les 4 problèmes ci-dessus. 0
Je vais maintenant présenter un ensemble de conditions suffisantes pour une séparation parfaite pour faire tomber le MLE. Cela n'est pas lié à la question de savoir si les divers logiciels statistiques avertissent du phénomène - ils peuvent le faire en scannant l'échantillon de données avant de tenter d'exécuter une estimation du maximum de vraisemblance. Je m'inquiète des cas où l'estimation du maximum de vraisemblance commencera - et quand elle tombera en panne au cours du processus.
Supposons un modèle de régression logistique à choix binaire «habituel»
P(Yi∣β0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+z′iγ
X est le régresseur avec une séparation parfaite, tandis que est une collection d'autres régresseurs qui ne sont pas caractérisés par une séparation parfaite. AussiZ
Λ(g(β0,xi,zi))=11+e−g(β0,xi,zi)≡Λi
La log-vraisemblance pour un échantillon de taille estn
lnL=∑i=1n[yiln(Λi)+(1−yi)ln(1−Λi)]
Le MLE sera trouvé en définissant les dérivées égales à zéro. En particulier, nous voulons
∑i=1n(yi−Λi)=0(1)
∑i=1n(yi−Λi)xi=0(2)
La première équation vient de prendre la dérivée par rapport au terme constant, le deuxième à partir de la prise dérivée par rapport à .X
Supposons maintenant que dans tous les cas où nous avons , et que ne prend jamais la valeur lorsque . C'est le phénomène de séparation complète, ou "prédiction parfaite": si l'on observe on sait que . Si nous observons nous savons que . Cela est vrai indépendamment du fait que, en théorie ou dans l'échantillon , soit discret ou continu, dichotomique ou non. Mais aussi, il s'agit d'un phénomène spécifique à l'échantillon - nous ne prétendons pas qu'il retiendra la population. Mais l'échantillon spécifique est ce que nous avons entre nos mains pour alimenter le MLE.y1=1xi=akxiakyi=0xi=akyi=1xi≠akyi=0X
Désignons maintenant la fréquence absolue de paryi=1ny
ny≡∑i=1nyi=∑yi=1yi(3)
On peut alors réécrire eq comme(1)
ny=∑i=1nΛi=∑yi=1Λi+∑yi=0Λi⇒ny−∑yi=1Λi=∑yi=0Λi(4)
Passant à l'éq. nous avons(2)
∑i=1nyixi−∑i=1nΛixi=0⇒∑yi=1yiak+∑yi=0yixi−∑yi=1Λiak−∑yi=0Λixi=0
en utilisant nous avons
(3)
nyak+0−ak∑yi=1Λi−∑yi=0Λixi=0
⇒ak(ny−∑yi=1Λi)−∑yi=0Λixi=0
et en utilisant on obtient(4)
ak∑yi=0Λixi−∑yi=0Λixi=0⇒∑yi=0(ak−xi)Λi=0(5)
Donc: si la spécification contient un terme constant et qu'il existe une séparation parfaite par rapport au régresseur , le MLE tentera de satisfaire, entre autres, eq également. X(5)
Mais notez que la sommation est sur le sous-échantillon où dans lequel par hypothèse. Cela implique ce qui suit:
1) si est dichotomique dans l'échantillon, alors pour tout dans la somme de .
2) Si n'est pas dichotomique dans l'échantillon, mais est soit sa valeur minimale soit sa valeur maximale dans l'échantillon, alors à nouveau pour tout dans la somme en . yi=0xi≠ak
X(ak−xi)≠0i(5)
Xak(ak−xi)≠0i(5)
Dans ces deux cas, et puisque de plus est non négatif par construction, la seule façon dont eq. peut être satisfait lorsque pour tout dans la somme. MaisΛi(5)Λi=0i
Λi=11+e−g(β0,xi,zi)
et donc la seule façon dont peut devenir égal à , est si les estimations des paramètres sont telles que . Et puisque est linéaire dans les paramètres, cela implique qu'au moins une des estimations des paramètres doit être "infini": c'est ce que signifie pour le MLE de "décomposer": ne pas produire d'estimations à valeur finie. Les cas 1) et 2) sont donc des conditions suffisantes pour interrompre la procédure MLE.Λi0g(β0,xi,zi)→−∞g()
Mais considérons maintenant le cas où n'est pas dichotomique et n'est pas son minimum ou sa valeur maximale dans l'échantillon. Nous avons encore une séparation complète, une "prédiction parfaite", mais maintenant, dans l'éq. certains des termes seront positifs et certains seront négatifs. Cela signifie qu'il est possible que le MLE puisse satisfaire l'équation. produire des estimations finies pour tous les paramètres. Et les résultats de la simulation confirment qu'il en est ainsi. Xak(5)(ak−xi)(5)
Je ne dis pas qu'un tel échantillon ne crée pas de conséquences indésirables pour les propriétés de l'estimateur, etc.: je note simplement que dans un tel cas, l'algorithme d'estimation fonctionnera comme d'habitude.
De plus, les résultats de la simulation montrent que s'il n'y a pas de terme constant dans la spécification , n'est pas dichotomique mais est une valeur extrême, et qu'il y a d'autres régresseurs présents, encore une fois le MLE fonctionnera - indiquant que la présence du terme constant (dont Les conséquences théoriques que nous avons utilisées dans les résultats précédents, à savoir l'exigence que le MLE satisfasse l'équation ), sont importantes.Xak(1)