Cette question / sujet a été soulevé lors d'une discussion avec un collègue et je cherchais des opinions à ce sujet:
Je modélise certaines données en utilisant une régression logistique à effets aléatoires, plus précisément une régression logistique à interception aléatoire. Pour les effets fixes, j'ai 9 variables qui sont intéressantes et qui entrent en ligne de compte. Je voudrais faire une sorte de sélection de modèle pour trouver les variables qui sont significatives et donner le «meilleur» modèle (effets principaux uniquement).
Ma première idée était d'utiliser l'AIC pour comparer différents modèles mais avec 9 variables je n'étais pas trop excitant pour comparer 2 ^ 9 = 512 modèles différents (mot-clé: dragage de données).
J'en ai discuté avec un collègue et il m'a dit qu'il se souvenait d'avoir lu sur l'utilisation de la sélection de modèle pas à pas (ou en avant) avec les GLMM. Mais au lieu d'utiliser une valeur de p (par exemple basée sur un test de rapport de vraisemblance pour les GLMM), on devrait utiliser l'AIC comme critère d'entrée / sortie.
J'ai trouvé cette idée très intéressante, mais je n'ai trouvé aucune référence qui en ait discuté davantage et mon collègue ne se souvenait pas où il l'avait lue. De nombreux livres suggèrent d'utiliser l'AIC pour comparer les modèles, mais je n'ai trouvé aucune discussion sur l'utilisation de cela avec une procédure de sélection de modèle pas à pas ou vers l'avant.
J'ai donc essentiellement deux questions:
Y a-t-il quelque chose de mal à utiliser l'AIC dans une procédure de sélection de modèle pas à pas comme critère d'entrée / sortie? Si oui, quelle serait l'alternative?
Avez-vous des références qui discutent de la procédure ci-dessus (également comme référence pour un rapport final?
Meilleur,
Emilia