Comment ajuster un modèle pour une série chronologique contenant des valeurs aberrantes

9

J'ai ajusté le modèle ARIMA (5,1,2) en utilisant la auto.arima()fonction dans R et en regardant l'ordre, nous pouvons dire que ce n'est pas le meilleur modèle à prévoir. Si des valeurs aberrantes existent dans la série de données, quelle est la méthode pour adapter un modèle à ces données?

— Anthony
source

Avez-vous des données / théorie sur les points aberrants? Vous ne pouvez pas simplement supposer que les points "éloignés" sont des valeurs aberrantes, mais si vous savez que quelque chose de spécial s'est produit à une date particulière et que cet événement affecterait vos données, vous pouvez ajouter une variable indicatrice à votre modèle pour cette date. Voir le commentaire d'IrishStat ci-dessous.

— Wayne

Si quelque chose de spécial s'est produit sur 1 ou 2 semaines au cours de cette période et affecte le modèle, alors le modèle peut être incorrect. comme il n'y a pas d'autre raison que la variation saisonnière, j'ai supposé que les valeurs aberrantes sont la cause qui affecte le modèle.

— Anthony

7

Michael Chernick vous indique la bonne direction. Je regarderais également le travail de Ruey Tsay comme celui ajouté à ce corpus de connaissances. Voir plus ici .

Vous ne pouvez pas rivaliser avec les algorithmes informatiques automatisés d'aujourd'hui. Ils examinent de nombreuses façons d'aborder les séries chronologiques que vous n'avez pas prises en compte et souvent non documentées dans un document ou un livre. Quand on demande comment faire une ANOVA, une réponse précise peut être attendue lors de la comparaison avec différents algorithmes. Quand on pose la question comment faire la reconnaissance de formes, de nombreuses réponses sont possibles car l'heuristique est impliquée. Votre question implique l'utilisation d'heuristiques.

La meilleure façon d'adapter un modèle ARIMA, s'il existe des valeurs aberrantes dans les données, est d'évaluer les états de la nature possibles et de sélectionner l'approche jugée optimale pour un ensemble de données particulier. Un état de la nature possible est que le processus ARIMA est la principale source de variation expliquée. Dans ce cas, on «identifierait provisoirement» le processus ARIMA via la fonction acf / pacf, puis examinerait les résidus pour d'éventuelles valeurs aberrantes. Les valeurs aberrantes peuvent être des impulsions, c'est-à-dire des événements ponctuels OU des impulsions saisonnières qui sont mises en évidence par des valeurs aberrantes systématiques à une certaine fréquence (par exemple, 12 pour les données mensuelles). Un troisième type de valeur aberrante est celui où l'on a un ensemble d'impulsions contiguës, chacune ayant le même signe et la même ampleur, cela s'appelle un décalage de pas ou de niveau. Après avoir examiné les résidus du processus ARIMA provisoire, on peut alors provisoirement ajouter la structure déterministe identifiée empiriquement pour créer un modèle combiné provisoire. De plus, si la principale source de variation est l'un des 4 types ou "valeurs aberrantes", il serait préférable de les identifier ab initio (d'abord) puis d'utiliser les résidus de ce "modèle de régression" pour identifier la structure stochastique (ARIMA) . Maintenant, ces deux stratégies alternatives deviennent un peu plus compliquées quand on a un "problème" où les paramètres ARIMA changent avec le temps ou la variance d'erreur change avec le temps en raison d'un certain nombre de causes possibles, peut-être le besoin de moindres carrés pondérés ou d'une transformation de puissance comme les journaux / réciproques, etc. Une autre complication / opportunité est de savoir comment et quand former la contribution des séries de prédicteurs suggérées par l'utilisateur pour former un modèle intégré de manière transparente incorporant la mémoire, les causes et les séries factices identifiées empiriquement. Ce problème est encore aggravé lorsque l'on a des séries de tendances mieux modélisées avec des séries d'indicateurs de la formeOu et combinaisons de séries de changement de niveau comme $0,0,0,0,1,2,3,4,...$ $1,2,3,4,5,...n$ $0,0,0,0,0,0,1,1,1,1,1$ . Vous voudrez peut-être essayer d'écrire de telles procédures en R, mais la vie est courte. Je serais heureux de résoudre votre problème et de montrer dans ce cas comment fonctionne la procédure, veuillez poster les données ou les envoyer à sales@autobox.com

Commentaire supplémentaire après réception / analyse des données / données quotidiennes pour un taux de change / 18 = 765 valeurs à partir du 1/1/2007