J'ai lu d'innombrables articles sur ce site qui sont incroyablement contre l'utilisation de la sélection pas à pas de variables en utilisant n'importe quel type de critère, qu'il s'agisse de valeurs p, AIC, BIC, etc.
Je comprends pourquoi ces procédures sont en général assez médiocres pour la sélection des variables. Le poste probablement célèbre de Gung ici illustre clairement pourquoi; en fin de compte, nous vérifions une hypothèse sur le même ensemble de données que nous avons utilisé pour formuler l'hypothèse, qui n'est que du dragage de données. De plus, les valeurs de p sont affectées par des quantités telles que la colinéarité et les valeurs aberrantes, qui biaisent fortement les résultats, etc.
Cependant, j'ai étudié les prévisions chronologiques assez récemment et j'ai rencontré le manuel très respecté de Hyndman dans lequel il mentionne ici l'utilisation de la sélection pas à pas pour trouver l'ordre optimal des modèles ARIMA en particulier. En fait, dans le forecast
package de R, l'algorithme bien connu connu sous le nom auto.arima
utilise par défaut la sélection pas à pas (avec AIC, pas de valeurs p). Il critique également la sélection de fonctionnalités basée sur la valeur p qui s'aligne bien avec plusieurs publications sur ce site.
En fin de compte, nous devrions toujours valider d'une manière ou d'une autre à la fin si l'objectif est de développer de bons modèles de prévision / prédiction. Cependant, il s'agit certainement d'un désaccord ici en ce qui concerne la procédure elle-même pour les mesures d'évaluation autres que les valeurs p.
Quelqu'un a-t-il des opinions sur l'utilisation de l'AIC pas à pas dans ce contexte, mais aussi en général hors de ce contexte? On m'a appris à croire que toute sélection par étapes est mauvaise, mais pour être honnête, cela auto.arima(stepwise = TRUE)
m'a donné de meilleurs résultats sur les échantillons que, auto.arima(stepwise = FALSE)
mais ce n'est peut-être qu'une coïncidence.