L'échantillonnage pour la régression logistique devrait-il refléter le rapport réel de 1 et de 0?


23

Supposons que je veuille créer un modèle de régression logistique qui puisse estimer la probabilité d'occurrence de certaines espèces animales vivant sur des arbres en fonction des caractéristiques des arbres (hauteur fe). Comme toujours, mon temps et mon argent sont limités, je ne peux donc collecter qu'un échantillon limité.

J'ai les questions suivantes: le rapport de 1 et de 0 dans mon échantillon doit-il refléter le vrai rapport de 1 et de 0? (au moins environ) J'ai remarqué qu'il est courant de réaliser un modèle de régression logistique avec un échantillon équilibré (nombre égal de 1 et de 0) - mais ces modèles donnent une probabilité d'occurrence surréaliste élevée - n'est-ce pas?

Y a-t-il des articles / manuels que je peux utiliser pour ** soutenir la notion que les modèles qui ne reflètent pas le vrai rapport de 1 et de 0 sont " faux "? **

Et enfin: Est-il possible d'effectuer un échantillonnage 1: 1 et ensuite de corriger le modèle avec tau selon Imai et al. 2007?

Kosuke Imai, Gary King et Olivia Lau. 2007. «relogit: Régression logistique des événements rares pour les variables dépendantes dichotomiques», dans Kosuke Imai, Gary King et Olivia Lau, «Zelig: le logiciel statistique de tout le monde», http: //gking.harvard.edu/zelig.

entrez la description de l'image ici

Les points représentent des arbres (rouge = occupé, gris = inoccupé). Je suis capable d'identifier tous les arbres occupés avec une précision de 100% (1) mais je ne peux pas mesurer tous les arbres en forêt. Le modèle est différent pour chaque stratégie d'échantillonnage (ratio).

Réponses:


15

Si l'objectif d'un tel modèle est la prédiction, vous ne pouvez pas utiliser la régression logistique non pondérée pour prédire les résultats: vous surestimerez le risque. La force des modèles logistiques est que l'odds ratio (OR) - la "pente" qui mesure l'association entre un facteur de risque et un résultat binaire dans un modèle logistique - est invariant à l'échantillonnage dépendant du résultat. Donc, si les cas sont échantillonnés dans un rapport 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 aux témoins, cela n'a tout simplement pas d'importance: l'OR reste inchangé dans l'un ou l'autre scénario tant que l'échantillonnage est inconditionnel sur l'exposition (ce qui introduirait le biais de Berkson). En effet, l'échantillonnage dépendant des résultats est une tentative de réduction des coûts lorsqu'un échantillonnage aléatoire simple complet ne se produira tout simplement pas.

Pourquoi les prévisions de risque sont-elles biaisées par un échantillonnage dépendant des résultats utilisant des modèles logistiques? L'échantillonnage dépendant du résultat a un impact sur l'ordonnée à l'origine dans un modèle logistique. Cela fait que la courbe d'association en forme de S "glisse vers le haut sur l'axe des x" par la différence dans les log-odds d'échantillonnage d'un cas dans un échantillon aléatoire simple dans la population et les log-odds d'échantillonnage d'un cas dans un pseudo -population de votre plan expérimental. (Donc, si vous avez des cas 1: 1 à contrôler, il y a 50% de chances d'échantillonner un cas dans cette pseudo-population). Dans de rares cas, il s'agit d'une différence assez importante, un facteur de 2 ou 3.

Lorsque vous parlez de tels modèles comme étant "faux", vous devez vous concentrer sur la question de savoir si l'objectif est l'inférence (à droite) ou la prédiction (à tort). Cela concerne également le rapport entre les résultats et les cas. Le langage que vous avez tendance à voir autour de ce sujet est celui d'appeler une telle étude une étude «cas témoin», qui a été abondamment écrite. Peut-être que ma publication préférée sur le sujet est Breslow and Day qui, en tant qu'étude historique, a caractérisé les facteurs de risque de causes rares de cancer (auparavant irréalisables en raison de la rareté des événements). Les études cas-témoins suscitent une certaine controverse entourant la mauvaise interprétation fréquente des résultats: notamment en confondant le bloc opératoire avec le RR (exagère les résultats) et également la «base d'étude» en tant qu'intermédiaire de l'échantillon et de la population, ce qui améliore les résultats.fournit une excellente critique à leur sujet. Aucune critique, cependant, n'a prétendu que les études cas-témoins sont intrinsèquement invalides, je veux dire comment pourriez-vous? Ils ont fait progresser la santé publique dans d'innombrables voies. L'article de Miettenen est bon pour souligner que, vous pouvez même utiliser des modèles de risque relatif ou d'autres modèles dans l'échantillonnage dépendant des résultats et décrire les écarts entre les résultats et les constatations au niveau de la population dans la plupart des cas: ce n'est pas vraiment pire car la RO est généralement un paramètre difficile interpréter.

La manière la plus simple et la plus efficace de surmonter le biais de suréchantillonnage dans les prévisions de risque consiste probablement à utiliser la probabilité pondérée. Scott et Wild discutent de la pondération et montrent qu'elle corrige le terme d'interception et les prévisions de risque du modèle. Il s'agit de la meilleure approche lorsqu'il existe une connaissance a priori de la proportion de cas dans la population. Si la prévalence du résultat est en fait de 1: 100 et que vous échantillonnez des cas aux témoins de façon 1: 1, vous pondérez simplement les contrôles par une amplitude de 100 pour obtenir des paramètres cohérents pour la population et des prévisions de risque non biaisées. L'inconvénient de cette méthode est qu'elle ne tient pas compte de l'incertitude de la prévalence de la population si elle a été estimée avec erreur ailleurs. Il s'agit d'un vaste domaine de recherche ouverte, Lumley et Breslowest venu très loin avec une théorie sur l'échantillonnage en deux phases et l'estimateur doublement robuste. Je pense que ce sont des choses extrêmement intéressantes. Le programme de Zelig semble être simplement une implémentation de la fonction de pondération (qui semble un peu redondante car la fonction glm de R permet les pondérations).


(+1) La correction antérieure mérite-t-elle d'être mentionnée comme étant sans doute le moyen le plus simple d'ajuster l'ordonnée à l'origine pour un échantillonnage cas-témoin simple?
Scortchi - Réintégrer Monica

@Scortchi Voulez-vous dire une régression logistique bayésienne avec un a priori informatif sur l'interception? Ou optimisation contrainte? Je ne sais pas vraiment ce que cela pourrait être.
AdamO

1
Juste le calcul simple ici: stats.stackexchange.com/a/68726/17230 . (Je ne sais pas trop où j'ai choisi cette terminologie ni à quel point elle est standard.) J'ai entendu dire que la pondération fonctionne mieux pour les modèles mal spécifiés.
Scortchi - Réintégrer Monica

@Scortchi Ah, ce serait assez facile! Cela devrait convenir à la prévision tant que les estimations d'erreur ne sont pas nécessaires. La pondération vous donnera un SE différent pour l'ordonnée à l'origine et la pente, mais cette méthode n'affectera ni l'un ni l'autre.
AdamO
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.