Je voudrais étudier des événements rares dans une population finie. Étant donné que je ne sais pas quelle stratégie est la mieux adaptée, j'apprécierais les conseils et les références liés à cette question, bien que je sache bien qu'elle a été largement couverte. Je ne sais pas vraiment par où commencer.
Mon problème est des sciences politiques et j'ai une population finie comprenant 515 843 enregistrements. Ils sont associés à une variable dépendante binaire avec 513 334 "0" s et 2 509 "1" s. Je peux inventer mes "1" comme des événements rares car ils ne représentent que 0,49% de la population.
J'ai un ensemble d'une dizaine de variables indépendantes avec lesquelles j'aimerais construire un modèle pour expliquer la présence de "1". Comme beaucoup d'entre nous, j'ai lu l'article de King & Zeng de 2001 sur la correction d'événements rares. Leur approche consistait à utiliser une conception cas-témoins pour réduire le nombre de «0», puis à appliquer une correction à l'interception.
Cependant, ce post dit que l'argument de King & Zeng n'était pas nécessaire si j'avais déjà collecté mes données sur l'ensemble de la population, ce qui est mon cas. Par conséquent, je dois utiliser le modèle logit classique. Malheureusement pour moi, bien que j'obtienne de bons coefficients significatifs, mon modèle est totalement inutile en termes de prédiction (ne parvient pas à prédire 99,48% de mes "1").
Après avoir lu l'article de King & Zeng, je voulais essayer une conception cas-témoins et sélectionner seulement 10% des "0" avec tous les "1". Avec presque les mêmes coefficients, le modèle a pu prédire près d'un tiers des «1» lorsqu'il était appliqué à l'ensemble de la population. Bien sûr, il y a beaucoup de faux positifs.
J'ai donc trois questions que je voudrais vous poser:
1) Si l'approche de King & Zeng est préjudiciable lorsque vous avez une connaissance complète de la population, pourquoi utilisent-ils une situation dans laquelle ils connaissent la population dans leur article pour prouver leur point de vue?
2) Si j'ai des coefficients bons et significatifs dans une régression logit, mais un pouvoir prédictif très faible, cela signifie-t-il que la variation expliquée par ces variables n'a pas de sens?
3) Quelle est la meilleure approche pour faire face aux événements rares? J'ai lu sur le modèle de relogit de King, l'approche de Firth, le logit exact, etc. Je dois avouer que je suis perdu parmi toutes ces solutions.