Je travaille donc avec des modèles de régression logistique dans R. Bien que je sois encore nouveau dans les statistiques, j'ai l'impression d'avoir une certaine compréhension des modèles de régression, mais il y a encore quelque chose qui me dérange:
En regardant l'image liée, vous voyez le résumé des impressions R pour un exemple de modèle que j'ai créé. Le modèle essaie de prédire si un e-mail dans l'ensemble de données sera retrouvé ou non (variable binaire isRefound
) et l'ensemble de données contient deux variables étroitement liées à isRefound
, à savoir next24
et next7days
- elles sont également binaires et indiquent si un e-mail sera cliqué dans la prochaine 24h / 7 prochains jours à partir du point actuel dans les journaux.
La valeur de p élevée devrait indiquer que l'impact de cette variable sur la prédiction du modèle est assez aléatoire, n'est-ce pas? Sur cette base, je ne comprends pas pourquoi la précision des prédictions des modèles tombe en dessous de 10% lorsque ces deux variables sont exclues de la formule de calcul. Si ces variables sont si peu significatives, pourquoi les supprimer du modèle a-t-il un si grand impact?
Cordialement et merci d'avance, Rickyfox
ÉDITER:
Tout d'abord, je n'en ai retiré que le prochain24, ce qui devrait produire un faible impact car son coef est assez petit. Comme prévu, peu de choses ont changé - je ne vais pas télécharger de photo pour ça.
La suppression des 7 jours suivants a eu un impact important sur le modèle: AIC 200k up, précision jusqu'à 16% et rappel jusqu'à 73%
isRefound ~ day + next24
supprimer et d'omettre toutes les autres variables?