Je suis diplômé des affaires et de l'économie et j'étudie actuellement pour une maîtrise en ingénierie des données. Tout en étudiant la régression linéaire (LR) puis l'analyse des séries chronologiques (TS), une question m'est venue à l'esprit. Pourquoi créer une toute nouvelle méthode, c'est-à-dire des séries chronologiques (ARIMA), au lieu d'utiliser une régression linéaire multiple et d'y ajouter des variables décalées (avec l'ordre des décalages déterminé à l'aide d'ACF et de PACF)? Le professeur m'a donc suggéré d'écrire un petit essai sur la question. Je ne viendrais pas chercher de l'aide les mains vides, j'ai donc fait mes recherches sur le sujet.
Je savais déjà que lors de l'utilisation de LR, si les hypothèses de Gauss-Markov sont violées, la régression OLS est incorrecte, et cela se produit lors de l'utilisation de données de séries temporelles (autocorrélation, etc.). (une autre question à ce sujet, une hypothèse de GM est que les variables indépendantes devraient être normalement distribuées? ou juste la variable dépendante conditionnelle aux variables indépendantes?)
Je sais également qu'en utilisant une régression à décalage distribué, ce que je pense proposer ici et en utilisant OLS pour estimer les paramètres, la multicolinéarité entre les variables peut (évidemment) se produire, donc les estimations seraient erronées.
Dans un article similaire sur TS et LR ici, @IrishStat a déclaré:
... un modèle de régression est un cas particulier d'un modèle de fonction de transfert également connu sous le nom de modèle de régression dynamique ou modèle XARMAX. Le point saillant est que l'identification du modèle dans les séries chronologiques, c'est-à-dire les différences appropriées, les décalages appropriés des X, la structure ARIMA appropriée, l'identification appropriée de la structure déterministe non spécifiée comme les impulsions, les changements de niveau, les tendances temporelles locales, les impulsions saisonnières et l'incorporation des changements de paramètres ou de la variance d'erreur doivent être pris en compte.
(J'ai également lu son article dans Autobox sur Box Jenkins vs LR.) Mais cela ne résout toujours pas ma question (ou du moins cela ne clarifie pas les différentes mécaniques de RL et TS pour moi).
Il est évident que même avec des variables retardées, des problèmes OLS se posent et ce n'est ni efficace ni correct, mais lors de l'utilisation du maximum de vraisemblance, ces problèmes persistent-ils? J'ai lu que ARIMA est estimé par le maximum de vraisemblance, donc si le LR avec des retards est estimé avec ML au lieu de OLS, cela donne-t-il les coefficients "corrects" (supposons que nous incluions également les termes d'erreur décalés, comme un MA d'ordre) q).
Bref, le problème est-il OLS? Le problème est-il résolu en appliquant le ML?