Après avoir lu "To Explain or to Predict" de Galit Shmueli (2010), je suis perplexe face à une apparente contradiction. Il y a trois prémisses,
- Choix du modèle basé sur AIC ou BIC (fin de la page 300 - début de la page 301): en termes simples, l'AIC doit être utilisé pour sélectionner un modèle destiné à la prédiction tandis que le BIC doit être utilisé pour sélectionner un modèle pour l' explication . De plus (pas dans l'article ci-dessus), nous savons que dans certaines conditions, BIC sélectionne le vrai modèle parmi l'ensemble des modèles candidats; le vrai modèle est ce que nous recherchons dans la modélisation explicative (fin de la p. 293).
- Arithmétique simple: AIC sélectionnera un modèle plus grand que BIC pour les échantillons de taille 8 ou plus (satisfaisant raison des pénalités de complexité différentes entre AIC et BIC).
- Le «vrai» modèle (c'est-à-dire le modèle avec les régresseurs corrects et la forme fonctionnelle correcte mais les coefficients imparfaitement estimés) n'est peut-être pas le meilleur modèle de prédiction (p. 307): un modèle de régression avec un prédicteur manquant peut être un meilleur modèle de prévision - l'introduction d'un biais dû au prédicteur manquant peut être surpondérée par la réduction de la variance due à l'imprécision de l'estimation.
Les points 1. et 2. suggèrent que des modèles plus grands peuvent être meilleurs pour la prévision que des modèles plus parcimonieux. Pendant ce temps, le point 3. donne un exemple opposé où un modèle plus parcimonieux est meilleur pour la prédiction qu'un modèle plus grand. Je trouve cela déroutant.
Des questions:
- Comment l'apparente contradiction entre les points {1. et 2.} et 3. être expliqué / résolu?
- À la lumière du point 3., pourriez-vous expliquer de manière intuitive pourquoi et comment un modèle plus grand sélectionné par AIC est en fait meilleur pour la prédiction qu'un modèle plus parcimonieux sélectionné par BIC?