Considérons l'échantillonnage des données d'une population de taille de la manière suivante: Pour
Observer individu statut de « maladie » de l »
S'ils ont la maladie, incluez-les dans l'échantillon avec la probabilité
S'ils n'ont pas la maladie, incluez-les avec la probabilité .
Supposons que vous ayez observé une variable de résultat binaire et un vecteur prédicteur , pour sujets échantillonnés de cette façon. La variable de résultat n'est pas le statut de "maladie". Je veux estimer les paramètres du modèle de régression logistique:
Tout ce qui m'importe, ce sont les rapports de cotes (log), . L'interception n'est pas pertinente pour moi.
Ma question est: puis-je obtenir des estimations raisonnables de en ignorant les probabilités d'échantillonnage , et en ajustant le modèle comme si c'était un échantillon aléatoire ordinaire?
Je suis à peu près certain que la réponse à cette question est "oui". Ce que je recherche, c'est une référence qui valide cela.
Il y a deux raisons principales pour lesquelles je suis sûr de la réponse:
J'ai fait de nombreuses études de simulation et aucune d'entre elles ne contredit cela, et
Il est simple de montrer que, si la population est régie par le modèle ci-dessus, alors le modèle régissant les données échantillonnées est
Si les probabilités d'échantillonnage ne dépendaient pas de , cela représenterait un simple passage à l'ordonnée à l'origine et l'estimation ponctuelle de ne serait clairement pas affectée. Mais, si les décalages sont différents pour chaque personne, cette logique ne s'applique pas tout à fait, car vous obtiendrez certainement une estimation ponctuelle différente, bien que je soupçonne que quelque chose de similaire le fait. β
Connexes: L'article classique de Prentice et Pyke (1979) dit que les coefficients de régression logistique d'un cas-témoin (avec le statut de la maladie comme résultat) ont la même distribution que ceux collectés dans une étude prospective. Je soupçonne que ce même résultat s'appliquerait ici, mais je dois avouer que je ne comprends pas parfaitement chaque partie du document.
Merci d'avance pour tous commentaires / références.