Hypothèses de régression logistique multinomiale

10

Quelles sont les hypothèses appropriées de la régression logistique multinomiale? Et quels sont les meilleurs tests pour satisfaire ces hypothèses en utilisant SPSS 18?

— marque
source

6

L'hypothèse clé dans la MNL est que les erreurs sont distribuées de manière indépendante et identique avec une distribution de valeurs extrêmes de Gumbel. Le problème avec le test de cette hypothèse est qu'elle est faite a priori . Dans la régression standard, vous ajustez la courbe des moindres carrés et mesurez l'erreur résiduelle. Dans un modèle logit, vous supposez que l'erreur se trouve déjà dans la mesure du point et calculez une fonction de vraisemblance à partir de cette hypothèse.

Une hypothèse importante est que l'échantillon soit exogène. S'il est basé sur le choix, il y a des corrections à apporter.

En ce qui concerne les hypothèses sur le modèle lui-même, Train en décrit trois:

Variation du goût systématique et non aléatoire.
Substitution proportionnelle parmi les alternatives (une conséquence de la propriété IIA).
Pas de corrélation sérielle dans le terme d'erreur (données de panel).

La première hypothèse que vous n'avez qu'à défendre dans le contexte de votre problème. Le troisième est en grande partie le même, car les termes d'erreur sont purement aléatoires.

La seconde est cependant testable dans une certaine mesure. Si vous spécifiez un modèle logit imbriqué et qu'il s'avère que le modèle de substitution inter-nid est entièrement flexible ( ), vous auriez pu utiliser le modèle MNL et l'hypothèse IIA est valide. Mais rappelez-vous que la fonction log-vraisemblance pour le modèle logit imbriqué a des maxima locaux, vous devez donc vous assurer que vous obtenez cohérente. $\lambda = 1$ $\lambda =1$

En ce qui concerne tout cela dans SPSS, je ne peux pas vous aider à part vous suggérer d'utiliser le mlogitpackage dans R à la place. Pardon.

— gregmacfarlane
source

De plus, le modèle probit multinomial donne des résultats comparables avec un ensemble différent d'hypothèses. Une comparaison MNP / MNL peut donc également être utile.

— gregmacfarlane

3

L'une des hypothèses pratiques les plus importantes de la logistique multinomiale est que le nombre d'observations dans la plus petite catégorie de fréquence de est grand, par exemple 10 fois le nombre de paramètres du côté droit du modèle. $Y$

— Frank Harrell
source

Il s'avère que ce n'est pas toujours complètement vrai. Certains travaux (très) récents montrent que des paramètres cohérents peuvent être estimés pour des alternatives que vous n'observez jamais, à condition de disposer d'informations exogènes sur la fréquence réelle de la population. Mais cela nécessite un estimateur différent, donc en général vous avez raison.

— gregmacfarlane

1

On dirait qu'un prieur bayésien est appelé - ne peut pas être en désaccord. Mais sans informations externes, la logistique multinomiale sans contraintes a énormément de paramètres à estimer.

— Frank Harrell

2

gmacfarlane a été très clair. Mais pour être plus précis, et je suppose que vous effectuez une analyse transversale, l'hypothèse centrale est l'IIA (indépendance des alternatives non pertinentes). Vous ne pouvez pas forcer vos données à s'insérer dans l'hypothèse IIA, vous devez les tester et espérer qu'elles soient satisfaites. Spss n'a pas pu gérer le test avant 2010 à coup sûr. R le fait bien sûr, mais il pourrait être plus facile pour vous de migrer vers stata et de mettre en œuvre les tests IIA fournis par les commandes de postestimation mlogit.

Si l'IIA ne tient pas, le logit multinomial mixte ou le logit imbriqué sont des alternatives raisonnables. Le premier peut être estimé dans le gllamm, le second avec la commande nlogit beaucoup plus parcimonieuse.

— JDav
source