Pourquoi utiliser une certaine mesure d'erreur de prévision (par exemple MAD) par opposition à une autre (par exemple MSE)?

MAD = écart absolu moyen MSE = erreur quadratique moyenne

J'ai vu des suggestions de divers endroits selon lesquelles MSE est utilisé malgré certaines qualités indésirables (par exemple http://www.stat.nus.edu.sg/~staxyc/T12.pdf , qui déclare en p8 "On pense généralement que MAD est un meilleur critère que MSE. Cependant, mathématiquement, MSE est plus pratique que MAD. ")

Y at-il plus que cela? Existe-t-il un document qui analyse en profondeur les situations dans lesquelles différentes méthodes de mesure des erreurs de prévision sont plus / moins appropriées? Mes recherches sur Google n'ont rien révélé.

Une question similaire à celle-ci a été posée à /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde , et l'utilisateur a été invité à publier sur stats.stackexchange.com, mais je ne pense pas qu'ils l'aient jamais fait.

— user1205901 - Réintégrer Monica
source

MAD est généralement la déviation absolue médiane plutôt que la moyenne, non?

— Brian D

@BrianD: dans la communauté des statistiques au sens large, vous avez raison. Dans la communauté de prévision plus étroite , "MAD" est invariablement la "déviation absolue moyenne", AKA MAE .

— Stephan Kolassa

Réponses:

Pour décider de la mesure d'erreur de prévision ponctuelle à utiliser, nous devons prendre du recul. Notez que nous ne connaissons pas parfaitement les résultats futurs, et nous ne le saurons jamais. Le résultat futur suit donc une distribution de probabilité . Certaines méthodes de prévision produisent explicitement une telle distribution complète, et d'autres non - mais elle est toujours là, ne serait-ce qu'implicitement.

Maintenant, nous voulons avoir une bonne mesure d'erreur pour une prévision ponctuelle . Une telle prévision ponctuelle $F_t$ est notre tentative de résumer ce que nous savons de la distribution future (c'est-à-dire la distribution prédictive) au temps $t$ utilisant un seul nombre, une fonction dite de la densité future. La mesure d'erreur est alors un moyen d'évaluer la qualité de ce résumé de numéro unique.

Vous devez donc choisir une mesure d'erreur qui récompense les «bons» résumés numériques des densités futures (inconnues, peut-être prévues, mais peut-être seulement implicites).

Le défi est que différentes mesures d'erreur sont minimisées par différentes fonctions. Le MSE attendu est minimisé par la valeur attendue de la distribution future. Le MAD attendu est minimisé par la médiane de la distribution future. Ainsi, si vous calibrez vos prévisions pour minimiser le MAE, votre prévision ponctuelle sera la future médiane, pas la valeur attendue future, et vos prévisions seront biaisées si votre distribution future n'est pas symétrique.

Ceci est particulièrement pertinent pour les données de comptage, qui sont généralement asymétriques. Dans les cas extrêmes (disons, les ventes de Poisson distribuées avec une moyenne inférieure à $\log 2\approx 0.69$ ), votre MAE sera le plus bas pour une prévision de zéro plat. Voir ici ou ici ou ici pour plus de détails.

Je donne plus d'informations et une illustration dans Quelles sont les lacunes de l'erreur en pourcentage absolu moyen (MAPE)? Ce thread considère le mape , mais aussi d'autres mesures d'erreur, et il contient des liens vers d'autres threads liés.

En fin de compte, la mesure d'erreur à utiliser dépend vraiment de votre coût d'erreur de prévision, c'est-à-dire du type d'erreur le plus douloureux. Sans examiner les implications réelles des erreurs de prévision, toute discussion sur les «meilleurs critères» est essentiellement dénuée de sens.

Les mesures de l'exactitude des prévisions étaient un sujet important dans la communauté des prévisions il y a quelques années, et elles apparaissent toujours de temps en temps. Un très bon article à consulter est Hyndman & Koehler "Un autre regard sur les mesures de l'exactitude des prévisions" (2006).

Enfin, une alternative consiste à calculer les densités prédictives complètes et à les évaluer à l'aide de règles de notation appropriées .

— Stephan Kolassa
source

Merci pour la réponse et le lien. Je ne connaissais pas le terme «coût de l'erreur de prévision». Il semble que cela se rapporte à des situations où (par exemple) une entreprise prévoit le nombre de widgets qu'elle vendra, et peut-être que la douleur qu'elle subit pour surestimation est deux fois plus importante que la douleur qu'elle subit pour sous-estimation. Cependant, je pense principalement à un contexte dans lequel les profanes font des prévisions sans coût apparent apparent d'erreur de prévision (par exemple, "combien de tweets Bill Gates fera-t-il au cours des 5 prochains mois?"). Dans une telle situation, mon choix de mesure d'erreur sera-t-il arbitraire?

— user1205901

Le coût de l'erreur de prévision a été discuté dans la revue orientée vers le praticien Foresight : Forecasters.org/foresight Très fortement recommandé! (Divulgation complète: je suis rédacteur en chef adjoint.) Je conviens que le CoFE n'est pas facilement apparent dans votre exemple, mais je me demande alors combien d'efforts vous devriez vraiment consacrer à l'optimisation de votre mesure d'erreur ...

— Stephan Kolassa

Les avantages d'utiliser MAE au lieu de MSE sont expliqués dans Davydenko et Fildes (2016) , voir la section 3.1:

... Certains auteurs (par exemple, Zellner, 1986) soutiennent que le critère par lequel nous évaluons les prévisions devrait correspondre au critère par lequel nous optimisons les prévisions. En d'autres termes, si nous optimisons les estimations en utilisant une fonction de perte donnée, nous devons utiliser la même fonction de perte pour une évaluation empirique afin de déterminer quel modèle est le meilleur.

L'ajustement d'un modèle statistique fournit généralement des prévisions optimales en cas de perte quadratique. Cela se produit, par exemple, lorsque nous ajustons une régression linéaire. Si nos prévisions de densité issues de la modélisation statistique sont symétriques, les prévisions optimales sous perte quadratique sont également optimales sous perte linéaire. Mais, si nous stabilisons la variance par log-transformations et transformons ensuite les prévisions par exponentiation, nous n'obtenons des prévisions optimales qu'en cas de perte linéaire. Si nous utilisons une autre perte, nous devons d'abord obtenir la prévision de densité en utilisant un modèle statistique, puis ajuster notre estimation en fonction de notre fonction de perte spécifique (voir des exemples de ce faire dans Goodwin, 2000).

Supposons que nous voulons comparer empiriquement deux méthodes et découvrir laquelle est la meilleure en termes de perte linéaire symétrique (car ce type de perte est couramment utilisé dans la modélisation). Si nous n'avons qu'une seule série chronologique, il semble naturel d'utiliser une erreur absolue moyenne (MAE). De plus, le MAE est attrayant car il est simple à comprendre et à calculer (Hyndman, 2006) ...

Les références

Davydenko, A. et Fildes, R. (2016). Mesures des erreurs de prévision: examen critique et recommandations pratiques. Dans Business Forecasting: Practical Problems and Solutions. John Wiley & Sons

— Turbofly
source

Pourriez-vous donner une citation complète à l'article, plutôt que simplement "Davydenko et Fildes, 2016"?

— Silverfish

Nous aimons que nos réponses soient autonomes, afin qu'elles ne soient pas affectées par les liens qui meurent. Pensez-vous que vous pourriez développer quelque peu votre réponse, pour résumer ce que vous pensiez être les points clés de son contenu qui sont pertinents pour cette question? Sinon, c'est vraiment plus approprié pour un commentaire qu'une réponse. (J'apprécie que vous n'ayez pas encore assez de réputation pour publier des commentaires, mais nous pouvons le convertir en un pour vous.)

— Silverfish

Merci pour votre réponse! Voici ce que (Davydenko et Fildes, 2016) dit: L'adaptation d'un modèle statistique fournit généralement des prévisions optimales en cas de perte quadratique. Cela se produit, par exemple, lorsque nous ajustons une régression linéaire. Si notre prévision de densité issue de la modélisation statistique est symétrique, les prévisions optimales sous perte quadratique sont également optimales sous perte linéaire. Mais, si nous stabilisons la variance par log-transformations puis transformons les prévisions par exponentiation, nous n'obtenons des prévisions optimales qu'en cas de perte linéaire.

— Turbofly

Merci! Vous pouvez modifier ces informations dans votre réponse (le bouton "modifier" se trouve en bas de votre message).

— Silverfish

Merci beaucoup. J'ai fait un certain formatage et donné une citation complète.

— Silverfish

$RMSE = \sqrt{MSE}$ $MAE = MAD$

Réellement,

$MAE \leq RMSE \leq \sqrt{n} MAE$

$e$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n e^2} = e = MAE$
$e$
$MAE = \frac{e}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} e^2} = \sqrt{\frac{1}{n} (n MAE)^2} = \sqrt{n} MAE$

$MAE \leq RMSE \leq \sqrt{MAE}$ $y_i$ $\hat y_i$ $\in [0, 1]$

$e_i$ $\leq 1$
$MAE = \frac{n_{wrong}}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n_{wrong}} = \sqrt{MAE}$
$n_{wrong}$ $e_i \in [0, 1]$ $e_i < 1$

Si le RMSE est proche du MAE, vous avez de nombreux petits écarts, s'il est proche de sa limite supérieure, il y a peu de prédictions grossièrement fausses.

— cbeleites soutient Monica
source

voulez-vous dire sqrt (n) * MAE ou sqrt (n * MAE) comme limite supérieure?

— Chris

@Chris: c'est sqrt (n) * MAE, voir ma modification.

— cbeleites prend en charge Monica du