La référence à «laisser les données guider le modèle» peut être attribuée à George EP Box et Gwilym M. Jenkins . Dans le chapitre 2 de leur manuel classique, Time Series Analysis: Forecasting and Control (1976), il est dit que:
L'obtention d'estimations d'échantillons de la fonction d'autocorrélation et du spectre sont des approches non structurelles, analogues à la représentation d'une fonction de distribution empirique par un histogramme. Ce sont deux façons de laisser les données des séries stationnaires `` parler d'elles-mêmes '' et de fournir une première étape dans l'analyse des séries chronologiques, tout comme un histogramme peut fournir une première étape dans l'analyse distributionnelle des données, montrant la voie à suivre. un modèle paramétrique sur lequel l'analyse ultérieure sera basée.
Cette procédure de modélisation consistant à laisser les données parler , comme le préconise Box & Jenkins, est évidemment mentionnée dans toute la littérature sur la modélisation ARIMA. Par exemple, dans le contexte de l'identification de modèles ARIMA provisoires, Pankratz (1983) dit:
Notez que nous n'abordons pas les données disponibles avec une idée rigide et préconçue sur le modèle que nous utiliserons. Au lieu de cela, nous laissons les données disponibles `` nous parler '' sous la forme d'une fonction d'autocorrélation estimée et d'une fonction d'autocorrélation partielle.
On peut donc dire que l'idée de «laisser les données guider le modèle» est une caractéristique courante de l'analyse des séries chronologiques.
Des notions similaires se retrouvent cependant dans d'autres (sous) domaines d'études. Par exemple, @Dmitrij Celov a correctement fait référence à l'article révolutionnaire de Christopher Sims, Macroeconomics and Reality (1980), qui était une réaction contre l'utilisation de modèles d'équations simultanées à grande échelle en macroéconomie.
L'approche traditionnelle en macroéconomie était d'utiliser la théorie économique comme guide pour construire des modèles macroéconomiques. Souvent, les modèles étaient constitués de centaines d'équations et des restrictions, telles que la prédétermination des signes de certains coefficients, leur seraient imposées. Sims (1980) a critiqué l'utilisation de ces connaissances a priori pour construire des modèles macroéconomiques:
Le fait que les grands modèles macroéconomiques soient dynamiques est une riche source de restrictions fausses a priori.
Comme déjà mentionné par @Dmitrij Celov, l'approche alternative préconisée par Sims (1980) consistait à spécifier des équations vectorielles autorégressives - qui sont (essentiellement) basées sur les propres valeurs décalées d'une variable et sur les valeurs décalées d'autres variables.
Bien que je sois fan de la notion de `` laisser les données parler d'elles-mêmes '' , je ne suis pas trop sûr que cette méthodologie puisse être pleinement étendue à tous les domaines d'études. Par exemple, envisagez de faire une étude en économie du travail pour essayer d'expliquer la différence entre les taux de salaire des hommes et des femmes dans un pays donné. La sélection de l'ensemble des régresseurs dans un tel modèle sera probablement guidée par la théorie du capital humain . Dans d'autres contextes, l'ensemble des régresseurs peut être sélectionné en fonction de ce qui nous intéresse et de ce que le bon sens nous dit. Verbeek (2008) dit:
Il est de bonne pratique de sélectionner l'ensemble de variables potentiellement pertinentes sur la base d'arguments économiques plutôt que statistiques. Bien qu'il soit parfois suggéré autrement, les arguments statistiques ne sont jamais des arguments de certitude.
Vraiment, je ne peux qu'effleurer la surface ici parce que c'est un sujet tellement vaste, mais la meilleure référence que j'ai rencontrée sur la modélisation est Granger (1991). Si votre parcours n'est pas économique, ne vous laissez pas rebuter par le titre du livre. La plupart des discussions ont lieu dans le contexte de la modélisation de séries économiques, mais je suis sûr que celles d'autres domaines en tireraient beaucoup et trouveraient cela utile.
Le livre contient d'excellentes discussions sur différentes méthodologies de modélisation telles que:
- L'approche générale à spécifique (ou méthodologie LSE) préconisée par David Hendry.
- L'approche spécifique au général.
- La méthodologie d'Edward Leamer (généralement associée aux termes «analyse de sensibilité (ou de limites extrêmes)» et «bayésienne» ).
- Par coïncidence, l'approche de Christophers Sims est également couverte.
Il convient de noter que Granger (1991) est en fait une collection d'articles, donc plutôt que d'essayer d'obtenir une copie du livre, vous pouvez bien sûr consulter la table des matières et essayer de trouver les articles par eux-mêmes. (Voir le lien ci-dessous.)
J'espère que cela s'est avéré utile!
Références: