Il y a une variété de problèmes avec la sélection pas à pas. J'ai discuté pas à pas dans ma réponse ici: Algorithmes pour la sélection automatique de modèle . Dans cette réponse, je ne me suis pas principalement concentré sur les problèmes d'inférence, mais sur le fait que les coefficients sont biaisés (les athlètes essayant sont analogues aux variables). Étant donné que les coefficients sont biaisés loin de leurs valeurs réelles, l'erreur prédictive hors échantillon doit être agrandie, toutes choses égales par ailleurs.
Considérons la notion de compromis biais-variance . Si vous considérez la précision de votre modèle comme la variance des erreurs de prédiction (c'est-à-dire MSE: ), l'erreur de prédiction attendue est la somme de trois sources différentes de variance :1 / n ∑ (yje-y^je)2
E[ (yje-y^je)2] =Var(F^) + [ B i a s (F^)]2+ V a r ( ε )
Ces trois termes sont respectivement la variance de votre estimation de la fonction, le carré du biais de l'estimation et l'erreur irréductible dans le processus de génération de données. (Ce dernier existe parce que les données ne sont pas déterministes - vous n'obtiendrez jamais de prévisions plus proches que cela en moyenne.) Les deux premiers proviennent de la procédure utilisée pour estimer votre modèle. Par défaut, nous pourrions penser que l'
OLS est la procédure utilisée pour estimer le modèle, mais il est plus correct de dire que
la sélection par étapes sur les estimations de l'OLS est la procédure. L'idée du compromis biais-variance est que, alors qu'un modèle explicatif met à juste titre l'accent sur l'impartialité, un modèle prédictif peut bénéficier de l'utilisation d'une procédure biaisée si la variance est suffisamment réduite (pour une explication plus complète, voir:
Quel problème les méthodes de retrait résolvent-elles? ).
Avec ces idées à l'esprit, le point de ma réponse lié en haut est que beaucoup de biais sont induits. Toutes choses étant égales par ailleurs, cela aggravera les prévisions des échantillons. Malheureusement, la sélection pas à pas ne réduit pas la variance de l'estimation. Au mieux, sa variance est la même, mais elle risque également d'aggraver la variance (par exemple, @Glen_b rapporte que seulement 15,5% des fois où les bonnes variables ont été choisies dans une étude de simulation discutée ici: pourquoi valeurs p trompeuses après avoir effectué une sélection pas à pas? ).