Cette question découle de ma confusion réelle sur la façon de décider si un modèle logistique est assez bon. J'ai des modèles qui utilisent l'état des couples projet individuel deux ans après leur formation en tant que variable dépendante. Le résultat est réussi (1) ou non (0). J'ai des variables indépendantes mesurées au moment de la formation des paires. Mon objectif est de tester si une variable qui, selon moi, influencerait le succès des paires a un effet sur ce succès, en contrôlant d'autres influences potentielles. Dans les modèles, la variable d'intérêt est significative.
Les modèles ont été estimés à l'aide de la glm()
fonction dans R
. Pour évaluer la qualité des modèles, j'ai fait quelques choses: glm()
vous donne le residual deviance
, le AIC
et le BIC
par défaut. De plus, j'ai calculé le taux d'erreur du modèle et tracé les résidus groupés.
- Le modèle complet a une déviance résiduelle plus petite, AIC et BIC que les autres modèles que j'ai estimés (et qui sont imbriqués dans le modèle complet), ce qui m'amène à penser que ce modèle est "meilleur" que les autres.
- Le taux d'erreur du modèle est assez faible , à mon humble avis (comme dans Gelman et Hill, 2007, pp.99 ) :,
error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)
aux alentours de 20%.
Jusqu'ici tout va bien. Mais lorsque je trace le résidu de la poubelle (toujours à la suite des conseils de Gelman et Hill), une grande partie des bacs se situent en dehors de l'IC à 95%:
Cette intrigue m'amène à penser qu'il y a quelque chose de complètement faux dans le modèle. Cela devrait-il m'amener à jeter le modèle? Dois-je reconnaître que le modèle est imparfait mais le conserver et interpréter l'effet de la variable d'intérêt? J'ai joué avec l'exclusion des variables à leur tour, et aussi une certaine transformation, sans vraiment améliorer le tracé des résidus groupés.
Éditer:
- À l'heure actuelle, le modèle comporte une douzaine de prédicteurs et 5 effets d'interaction.
- Les couples sont "relativement" indépendants les uns des autres dans le sens où ils se forment tous sur une courte période (mais pas à proprement parler, tous simultanément) et qu'il y a beaucoup de projets (13k) et beaucoup d'individus (19k ), donc une bonne partie des projets ne sont rejoints que par une seule personne (il y a environ 20000 paires).