Je n'étais pas d'accord avec les autres réponses dans les commentaires, il est donc juste que je donne les miennes. Soit la réponse (bons / mauvais comptes) et les covariables.XOuiX
Pour la régression logistique, le modèle est le suivant:
Journal( p ( Y= 1 | X= x )p ( Y= 0 | X= x )) =α+ ∑ki = 1Xjeβje
Pensez à la façon dont les données pourraient être collectées:
- Vous pouvez sélectionner les observations au hasard dans une "population" hypothétique
- Vous pouvez sélectionner les données en fonction de et voir quelles valeurs de se produisent.YXOui
Ces deux éléments sont d' accord pour le modèle ci - dessus, vous ne modélisation de la distribution de . Celles-ci seraient appelées une étude prospective .Oui| X
Alternativement:
- Vous pouvez sélectionner les observations sur la base de (disons 100 de chaque) et voir la prévalence relative de (c'est-à-dire que vous stratifiez sur ). C'est ce qu'on appelle une étude rétrospective ou cas-témoins .X YOuiXOui
(Vous pouvez également sélectionner les données en fonction de et de certaines variables de : il s'agirait d'une étude cas-témoins stratifiée, et il est beaucoup plus compliqué de travailler avec, donc je ne vais pas y entrer ici).XOuiX
L'épidémiologie a donné un bon résultat (voir Prentice et Pyke (1979) ) pour une étude cas-témoins, les estimations de la probabilité maximale pour peuvent être trouvées par régression logistique, c'est-à-dire en utilisant le modèle prospectif pour les données rétrospectives.β
Alors, comment est-ce pertinent pour votre problème?
Eh bien, cela signifie que si vous êtes en mesure de collecter plus de données, vous pouvez simplement regarder les mauvais comptes et toujours utiliser la régression logistique pour estimer les (mais vous devrez ajuster le pour tenir compte de la sur- représentation). Supposons que cela coûte 1 $ pour chaque compte supplémentaire, alors cela pourrait être plus rentable que de simplement regarder tous les comptes. αβjeα
Mais d'un autre côté, si vous avez déjà TOUTES les données possibles, il n'y a pas de raison de stratifier: vous jeteriez simplement des données (donnant de moins bonnes estimations), et vous vous retrouvez avec le problème d'essayer d'estimer .α