Bien que les mérites de la sélection de modèle pas à pas aient été discutés précédemment, il devient peu clair pour moi ce qu'est exactement la " sélection de modèle pas à pas " ou la " régression pas à pas ". Je pensais l'avoir compris, mais je n'en suis plus si sûr.
Ma compréhension est que ces deux termes sont synonymes (au moins dans un contexte de régression) et qu'ils se réfèrent à la sélection du meilleur ensemble de variables prédictives dans un modèle "optimal" ou "meilleur" , compte tenu des données. (Vous pouvez trouver la page Wikipedia ici et un autre aperçu potentiellement utile ici .)
Sur la base de plusieurs threads précédents (par exemple ici: Algorithmes pour la sélection automatique de modèle ), il apparaît que la sélection de modèle pas à pas est considérée comme un péché cardinal. Et pourtant, il semble être utilisé tout le temps, y compris par des statisticiens qui semblent bien respectés. Ou est-ce que je mélange la terminologie?
Mes principales questions sont:
Par «sélection de modèle pas à pas» ou «régression pas à pas», entendons-nous:
A ) effectuer des tests d'hypothèse séquentiels tels que des tests de rapport de vraisemblance ou examiner des valeurs de p? (Il y a un article connexe ici: pourquoi les valeurs p sont-elles trompeuses après avoir effectué une sélection pas à pas? ) Est-ce ce que cela signifie et pourquoi est-ce mauvais?
Ou
B ) considérons-nous également que la sélection basée sur l'AIC (ou un critère d'information similaire) est également mauvaise? D'après la réponse d' Algorithmes pour la sélection automatique de modèle , il semble que cela aussi soit critiqué. D'un autre côté, Whittingham et al. (2006; pdf ) 1 semble suggérer que la sélection de variables basée sur une approche de la théorie de l'information (TI) est différente de la sélection par étapes (et semble être une approche valide) ...?Et c'est la source de toute ma confusion.
Pour le suivi, si la sélection basée sur AIC tombe sous "pas à pas" et est jugée inappropriée, voici d'autres questions:
Si cette approche est fausse, pourquoi est-elle enseignée dans les manuels, les cours universitaires, etc.? Est-ce que tout cela est faux?
Quelles sont les bonnes alternatives pour sélectionner les variables qui doivent rester dans le modèle? J'ai rencontré des recommandations pour utiliser des ensembles de données de validation croisée et de test de formation, et LASSO.
Je pense que tout le monde peut convenir qu'il est problématique de lancer sans discernement toutes les variables possibles dans un modèle, puis de faire une sélection par étapes. Bien sûr, un jugement sensé devrait guider ce qui se passe au départ. Mais que se passe-t-il si nous commençons déjà avec un nombre limité de variables prédictives possibles basées sur certaines connaissances (dites biologiques), et tous ces prédicteurs pourraient bien expliquer notre réponse? Cette approche de la sélection des modèles serait-elle toujours imparfaite? Je reconnais également que la sélection du «meilleur» modèle pourrait ne pas être appropriée si les valeurs AIC entre différents modèles sont très similaires (et l'inférence multimodèle peut être appliquée dans de tels cas). Mais le problème sous-jacent de l'utilisation de la sélection par étapes basée sur AIC est-il toujours problématique?
Si nous cherchons à voir quelles variables semblent expliquer la réponse et de quelle manière, pourquoi cette approche est-elle mauvaise, car nous savons que "tous les modèles sont faux, mais certains sont utiles"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB et Freckleton, RP (2006). Pourquoi utilisons-nous toujours la modélisation pas à pas en écologie et comportement? Journal of Animal Ecology, 75, p. 1182–1189.