Interprétation de l'erreur d'échelle absolue moyenne (MASE)


22

L'erreur moyenne à l'échelle absolue (MASE) est une mesure de la précision des prévisions proposée par Koehler et Hyndman (2006) .

MUNESE=MUNEEMUNEEjen-sunemple,nunejeve

est l'erreur absolue moyenne produite par la prévision réelle; tandis que M A E i n - s a m p l e ,MUNEE
est l'erreur absolue moyenne produite par une prévision naïve (par exemple, une prévision sans changement pour unesérie chronologiqueI(1)intégrée), calculée sur les données de l'échantillon.MUNEEjen-sunemple,nunejeveje(1)

(Consultez l'article de Koehler & Hyndman (2006) pour une définition et une formule précises.)

implique que la prévision réelle estpirehors échantillon qu'une prévision naïve dans l'échantillon, en termes d'erreur absolue moyenne. Ainsi, si l'erreur absolue moyenne est la mesure pertinente de l'exactitude des prévisions (qui dépend du problème en question), M A S E > 1 suggère que la prévision réelle soit rejetée au profit d'une prévision naïvesi nous nous attendons à ce que les données d'échantillon doivent être très similaires aux données de l'échantillon(car nous savons seulement dans quelle mesure une prévision naïve a fonctionné dans l'échantillon, pas hors échantillon).MUNESE>1MUNESE>1

Question:

été utilisé comme référence dans un concours de prévisions proposé dans cebillet de blog Hyndsight. Un repère évident n'aurait-il pas dû être M A S E = 1 ?MUNESE=1,38MUNESE=1

Bien sûr, cette question n'est pas spécifique à la compétition de prévision particulière. J'aimerais avoir de l'aide pour comprendre cela dans un contexte plus général.

Ma conjecture:

La seule explication sensée que je vois est qu'une prévision naïve devrait faire bien pire hors échantillon qu'elle ne l'a fait dans l'échantillon, par exemple en raison d'un changement structurel. Alors aurait pu être trop difficile à réaliser.MUNESE<1

Les références:


Dans son article de blog, Rob note d'où vient cette référence: "Ces seuils sont les méthodes les plus performantes dans l'analyse de ces données décrites dans Athanasopoulos et al (2010)." Avez-vous regardé le document Athanosopoulos?
S.Kolassa - Rétablir Monica

Je suis un peu perplexe devant "votre supposition": un changement structurel signifierait que les prévisions sophistiquées seraient basées sur des données passées en partie non pertinentes, en effet. Mais la façon dont une rupture structurelle affecterait une prévision "sans changement" dépend de la rupture. Si, par exemple, nous examinons une marche aléatoire avec dérive, et que la rupture structurelle signifie que la dérive, le terme constant, vient juste de baisser , alors la prévision "sans changement" fonctionnera mieux après la pause qu'avant.
Alecos Papadopoulos

@AlecosPapadopoulos: vous avez raison. Cependant, je voulais dire les hors-échantillon des données étant tout à fait différentes des données-en-échantillon comme nécessaire, mais pas une condition suffisante pour attendre . Je ne me suis peut-être pas exprimé correctement. MUNESE>>1
Richard Hardy

MUNESE

Réponses:


15

Dans l' article de blog lié , Rob Hyndman lance un appel à candidatures pour un concours de prévisions touristiques. Essentiellement, l'article de blog sert à attirer l'attention sur l' article pertinent de l' IJF , dont une version non fermée est liée à l'article de blog.

Les références auxquelles vous faites référence - 1,38 pour les données mensuelles, 1,43 pour les données trimestrielles et 2,28 pour les données annuelles - ont apparemment été établies comme suit. Les auteurs (tous sont des prévisionnistes experts et très actifs dans le IIF - pas de vendeurs d'huile de serpent ici) sont tout à fait capables d'appliquer des algorithmes de prévision standard ou des logiciels de prévision, et ils ne sont probablement pas intéressés par une simple soumission ARIMA. Ils sont donc allés appliquer des méthodes standard à leurs données. Pour que la soumission gagnante soit invitée à un article dans la FIJ , ils demandent qu'elle s'améliore sur les meilleures de ces méthodes standard, telles que mesurées par le MASE.

Votre question se résume donc essentiellement à:

Étant donné qu'un MASE de 1 correspond à une prévision hors échantillon aussi bonne (par MAD) que la prévision de marche aléatoire naïve dans l'échantillon, pourquoi les méthodes de prévision standard comme ARIMA ne peuvent-elles pas s'améliorer sur 1,38 pour les données mensuelles?

Ici, le 1.38 MASE provient du tableau 4 dans la version non fermée. Il s'agit de l'ASE moyenne sur 1-2 à 24 mois des prévisions d'ARIMA. Les autres méthodes standard, comme ForecastPro, ETS, etc. fonctionnent encore moins bien.

exp(t)avec des méthodes standard. Aucun de ceux-ci ne capturera la tendance à l'accélération (et c'est généralement une bonne chose - si votre algorithme de prévision modélise souvent une tendance à l'accélération, vous dépasserez probablement de loin votre note), et ils produiront un MASE supérieur à 1. D'autres explications pourraient , comme vous le dites, ce sont des ruptures structurelles différentes, par exemple, des changements de niveau ou des influences externes comme le SRAS ou le 11 septembre, qui ne seraient pas capturées par les modèles de référence non causaux, mais qui pourraient être modélisées par des méthodes de prévisions touristiques dédiées (bien qu'en utilisant les causalités futures dans un échantillon retenu sont une sorte de tricherie).

Je dirais donc que vous ne pouvez probablement pas dire grand-chose à ce sujet sans regarder les données elles-mêmes. Ils sont disponibles sur Kaggle. Votre meilleur pari est susceptible de prendre ces 518 séries, de tenir les 24 derniers mois, d'ajuster les séries ARIMA, de calculer les MASE, de creuser les dix ou vingt séries de prévisions les moins bonnes pour MASE, de prendre une grosse tasse de café, de regarder ces séries et d'essayer pour comprendre ce qui rend les modèles ARIMA si mauvais pour les prévoir.

EDIT: un autre point qui semble évident après coup mais qui m'a pris cinq jours à voir - rappelez-vous que le dénominateur du MASE est la prévision de marche aléatoire dans l'échantillon avec une longueur d'avance , tandis que le numérateur est la moyenne des 1-24- anticiper les prévisions. Il n'est pas trop surprenant que les prévisions se détériorent avec des horizons croissants, donc cela peut être une autre raison pour un MASE de 1,38. Notez que la prévision saisonnière naïve était également incluse dans l'indice de référence et avait un MASE encore plus élevé.


Très bonne réponse! Merci pour le résumé concis du document original (il servira de raccourci utile à tous les non-initiés). Il semble que l'idée principale derrière votre réponse n'entre pas en conflit avec ma supposition (mais la prolonge plutôt); il y a quelque chose de spécial hors échantillon que l'erreur de prévision naïve dans l'échantillon sous-estime.
Richard Hardy

2

Pas une réponse, mais un complot suite à l'appel de Stephan Kolassa à "regarder ces séries".
Kaggle tourism1 a 518 séries chronologiques annuelles, pour lesquelles nous voulons prédire les 4 dernières valeurs:

entrez la description de l'image ici

5th
Error4(y)14lunest 4|yje-y-5|
Les nombres dans les coins, 81 12 ..., sont Error4(y) en% de la plage, et length(y).
Les 3 rangées sont les 10 pires, 10 au milieu et 10 meilleures de 518 séries chronologiques annuelles.

Évidemment, les séries très courtes - 12 11 7 7 7 ... dans la rangée du haut - sont difficiles à prévoir: pas de surprise.
(Athanasopoulos, Hyndman, Song et Wu, le concours de prévisions touristiques (2011, 23p) a utilisé 112 des 518 séries annuelles, mais je ne vois pas lesquelles.)

Existe-t-il d'autres collections de séries chronologiques plus récentes depuis 2010, qui méritent d'être examinées?


Merci! Je ne connais pas la réponse à votre dernière question.
Richard Hardy

1
@denis: viens de voir votre question - vous voudrez peut-être demander des données à OpenData.SE .
S.Kolassa - Reinstate Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.