D'après ce que je comprends, la sélection de variables basée sur les valeurs de p (au moins dans le contexte de régression) est très imparfaite. Il semble que la sélection de variables basée sur AIC (ou similaire) soit également considérée comme imparfaite par certains, pour des raisons similaires, bien que cela semble un peu flou (par exemple, voir ma question et certains liens sur ce sujet ici: Qu'est - ce exactement que la "sélection de modèle par étapes"? ).
Mais supposons que vous optiez pour l'une de ces deux méthodes pour choisir le meilleur ensemble de prédicteurs dans votre modèle.
Burnham et Anderson 2002 (Sélection de modèles et inférence multimodèle: une approche théorique pratique de l'information, page 83) déclarent qu'il ne faut pas mélanger la sélection des variables basée sur l'AIC avec celle basée sur le test d'hypothèse : "Les tests d'hypothèses nulles et les approches théoriques de l'information devraient ne pas être utilisés ensemble, ce sont des paradigmes d'analyse très différents. "
En revanche, Zuur et al. 2009 (modèles à effets mixtes avec extensions en écologie avec R, page 541) semblent préconiser l'utilisation de l' AIC pour trouver d'abord le modèle optimal, puis effectuer un "réglage fin" à l'aide de tests d'hypothèse : "L'inconvénient est que l'AIC peut être conservateur , et vous devrez peut-être appliquer un réglage fin (en utilisant les tests d'hypothèses obtenus à partir de l'approche 1) une fois que l'AIC aura sélectionné un modèle optimal. "
Vous pouvez voir comment cela laisse le lecteur des deux livres confus quant à l'approche à suivre.
1) S'agit-il simplement de «camps» de pensée statistique différents et d'un sujet de désaccord entre statisticiens? L'une de ces approches est-elle simplement "dépassée" maintenant, mais a-t-elle été jugée appropriée au moment de la rédaction? Ou est-ce simplement faux dès le départ?
2) Y aurait-il un scénario dans lequel cette approche serait appropriée? Par exemple, je viens d'un milieu biologique, où j'essaie souvent de déterminer quelles variables, le cas échéant, semblent affecter ou conduire ma réponse. J'ai souvent un certain nombre de variables explicatives candidates et j'essaie de trouver celles qui sont «importantes» (en termes relatifs). Notez également que l'ensemble des variables candidates prédictives est déjà réduit à celles considérées comme ayant une certaine pertinence biologique, mais cela peut toujours inclure 5 à 20 candidats prédicteurs.