Version courte:
Nous savons que la régression logistique et la régression probit peuvent être interprétées comme impliquant une variable latente continue qui est discrétisée selon un seuil fixe avant l'observation. Une interprétation similaire des variables latentes est-elle disponible pour, disons, la régression de Poisson? Qu'en est-il de la régression binomiale (comme logit ou probit) quand il y a plus de deux résultats discrets? Au niveau le plus général, existe-t-il un moyen d'interpréter un GLM en termes de variables latentes?
Version longue:
Un moyen standard de motiver le modèle probit pour les résultats binaires (par exemple, de Wikipedia ) est le suivant. Nous avons une variable de résultat non observée / latente qui est normalement distribué, sous réserve des prédicteur . Cette variable latente est soumise à un processus de seuillage, de sorte que le résultat discret que nous observons réellement est si , si . Cela conduit à la probabilité que donné prenne la forme d'un CDF normal, avec la moyenne et l'écart type en fonction du seuil et de la pente de la régression de sur , respectivement. Ainsi , le modèle probit est motivé comme un moyen d'estimation de la pente de cette régression latente de sur .
Ceci est illustré dans l'intrigue ci-dessous, tirée de Thissen & Orlando (2001). Ces auteurs discutent techniquement du modèle d'ogive normal de la théorie de la réponse aux items, qui ressemble à peu près à la régression probit pour nos besoins (notez que ces auteurs utilisent à la place de , et la probabilité est écrite avec au lieu du habituel ).
Nous pouvons interpréter la régression logistique à peu près exactement de la même manière . La seule différence est que maintenant la continue inobservée fait suite à une logistique de distribution, et non pas une distribution normale, étant donné . Un argument théorique pour expliquer pourquoi pourrait suivre une distribution logistique plutôt qu'une distribution normale est un peu moins clair ... mais puisque la courbe logistique résultante est essentiellement la même que la CDF normale à des fins pratiques (après le rééchelonnement), elle a sans doute gagné '' t tendent à avoir beaucoup d'importance dans la pratique quel modèle vous utilisez. Le fait est que les deux modèles ont une interprétation assez simple des variables latentes.
Je veux savoir si nous pouvons appliquer des interprétations de variables latentes d'apparence similaire (ou, diable, d'apparence différente) à d'autres GLM - ou même à n'importe quel GLM.
Même étendre les modèles ci-dessus pour tenir compte des résultats binomiaux avec (c'est-à-dire, pas seulement les résultats de Bernoulli) n'est pas entièrement clair pour moi. On pourrait sans doute le faire en imaginant qu'au lieu d'avoir un seul seuil , nous avons plusieurs seuils (un de moins que le nombre de résultats discrets observés). Mais il faudrait imposer une certaine contrainte sur les seuils, comme le fait qu'ils soient régulièrement espacés. Je suis presque sûr que quelque chose comme ça pourrait fonctionner, même si je n'ai pas travaillé sur les détails.
Passer au cas de la régression de Poisson me semble encore moins clair. Je ne sais pas si la notion de seuils sera la meilleure façon de penser au modèle dans ce cas. Je ne sais pas non plus quel type de distribution nous pourrions concevoir comme ayant le résultat latent.
La solution la plus souhaitable serait une façon générale d'interpréter n'importe quel GLM en termes de variables latentes avec certaines distributions ou autres - même si cette solution générale impliquait une interprétation des variables latentes différente de celle habituelle pour la régression logit / probit. Bien sûr, il serait encore plus cool si la méthode générale était d'accord avec les interprétations habituelles de logit / probit, mais s'étendait également naturellement à d'autres GLM.
Mais même si de telles interprétations de variables latentes ne sont généralement pas disponibles dans le cas GLM général, je voudrais également entendre des interprétations de variables latentes de cas spéciaux comme les cas binomiaux et de Poisson que j'ai mentionnés ci-dessus.
Les références
Thissen, D. et Orlando, M. (2001). Théorie de la réponse aux items pour les items notés dans deux catégories. Dans D.Thissen & Wainer, H. (Eds.), Test Scoring (pp. 73-140). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Modifier 2016-09-23
Il existe une sorte de sens trivial dans lequel tout GLM est un modèle de variable latente, à savoir que nous pouvons sans doute toujours voir le paramètre de la distribution des résultats estimé comme une "variable latente" - c'est-à-dire que nous n'observons pas directement , disons, le paramètre de vitesse du Poisson, nous le déduisons simplement des données. Je considère que c'est une interprétation plutôt banale, et pas vraiment ce que je recherche, car selon cette interprétation, tout modèle linéaire (et bien sûr de nombreux autres modèles!) Est un "modèle variable latent". Par exemple, dans la régression normale, nous estimons un "latent" de Y normal étant donné X. Cela semble donc confondre la modélisation des variables latentes avec une simple estimation des paramètres. Ce que je recherche, dans le cas de la régression de Poisson par exemple, ressemblerait davantage à un modèle théorique pour expliquer pourquoi le résultat observé devrait avoir une distribution de Poisson en premier lieu, étant donné certaines hypothèses (à remplir par vous!) la distribution du latent , le processus de sélection s'il y en a un, etc. Ensuite (peut-être de manière cruciale?), nous devrions être en mesure d'interpréter les coefficients GLM estimés en termes de paramètres de ces distributions / processus latents, de la même manière que nous pouvons interpréter les coefficients de la régression probit en termes de déplacements moyens dans la variable normale latente et / ou de déplacements dans le seuil γ .