Un intervalle de prédiction doit-il contenir la moyenne?

J'ai un énorme problème avec un problème conceptuel que j'ai trouvé.

Disons qu'une entreprise a une distribution très asymétrique. Quelque chose de similaire à une exponentielle ou log-normale, mais plus extrême. Imaginez maintenant que la distribution est si asymétrique que la moyenne de la distribution est supérieure au 99% de centile de la distribution. (Aka 1-2 valeurs extrêmement élevées ont fait que la moyenne était extrêmement élevée par rapport au reste de la distribution).

Par définition, si cette distribution était utilisée pour prévoir une valeur future (c'est-à-dire un échantillon aléatoire de la distribution), serait-il vrai que la moyenne ne serait pas dans l'intervalle de prédiction à 95%?

Dans mon cerveau, un intervalle de prédiction de 95% est une plage entre laquelle 95% de toutes les valeurs futures se situeront. Pour toute distribution, cela devrait correspondre exactement au percentile 0,025 sur la borne inférieure et au percentile 0,975 sur la borne supérieure ... Si la moyenne est supérieure au percentile 0,975, alors la moyenne ne se situerait pas dans les '95% intervalle de prédiction ».

Est-ce que je pense mal à cela? Il semble étrange de rapporter une prévision

Valeur moyenne prévue: 6 000 0000
Intervalle de prédiction à 95%: [400 500].

mean prediction-interval

— Anotherdream
source

Que feriez-vous pour prédire une valeur à partir d'une distribution qui n'a aucun moyen? Pourquoi pensez-vous qu'il serait étrange de faire une prédiction pour une telle distribution?

— whuber

Actuall Whuber ... que feriez-vous pour prédire une valeur à partir d'une distribution sans moyenne ... Vous ne pouvez pas faire de monte carlo car cela n'aurait pas de moyen ... Vous pourriez montrer la distribution de la variable elle-même ... Pourriez-vous utiliser la médiane? En fait, je ne connais pas la réponse à cette question, et cela fait peut-être partie de la confusion.

— Anotherdream

Je suppose qu'une partie de la confusion est la suivante. On m'a dit de fournir un intervalle de prédiction pour une variable qui se comporte TRÈS similaire à cela. L '"estimation du point de prédiction" était la moyenne mobile sur 6 mois. Cependant, la moyenne mobile sur 6 mois était supérieure au centile supérieur ... Ainsi, mon "intervalle de prédiction" n'incluait pas mon "estimation de prédiction". On dirait que tout le monde dit que la moyenne était une mauvaise valeur à utiliser pour commencer (ce que je peux voir ... je n'ai pas construit cette chose haha). Suis-je correctement? Peut-être qu'une valeur différente devrait être utilisée comme «estimation du point de prédiction»?

— Anotherdream

Votre premier commentaire est intéressant sur la façon dont il semble introduire la moyenne inutilement. Une fois que vous avez une bonne simulation de la distribution de la variable elle-même, pourquoi n'est-ce pas assez d'informations pour faire une bonne prédiction? Ne serait-il pas probable qu'une valeur future se situe dans le corps principal de cette distribution? Pourquoi la moyenne serait-elle pertinente dans ce cas?

— whuber

Whuber. Je suis tout à fait d'accord avec ce que vous dites ... Il semble que la moyenne ne soit pas du tout pertinente dans cet exemple ... Mais cela implique-t-il que si vous exécutez une simulation et utilisez "une variable" (dans ce cas la moyenne) comme estimation ponctuelle, et vos résidus sont horriblement asymétriques, vous pouvez simplement refaire la distribution d'origine en prenant l'estimation ponctuelle asymétrique et en échantillonnant au hasard à partir des résidus et en additionnant les résultats. Je viens de refaire la dist originale à partir de l'estimation "biaisée" et de la dist résiduelle ... Alors à quoi sert l'estimation originale?

— Anotherdream

Réponses:

Non, un intervalle de prédiction ne doit pas nécessairement contenir la moyenne. Je pense qu'une partie de votre confusion pourrait être de mélanger les intervalles de prédiction et les intervalles de confiance. Alors que le but d'un intervalle de prédiction est de contenir avec une certaine certitude les valeurs futures de la variable aléatoire, le but d'un intervalle de confiance est de contenir la vraie moyenne de distribution.

Comme vous l'avez mentionné dans les distributions très asymétriques, ces idées semblent en contradiction. L'important est de reconnaître la valeur de chacune des statistiques fournies.

La valeur prédictive de la moyenne est:

1) Cumulatif: à mesure que de nouveaux échantillons arrivent, leur moyenne tendra vers la vraie moyenne. Donc, si la valeur cumulative est intéressante (par exemple, si vous jouez et que vous traitez avec des gains ou des pertes, vous êtes intéressé par les effets cumulatifs), la moyenne est très utile.

2) Minimise les résidus au carré: Bien que les résidus au carré soient une quantité d'intérêt quelque peu arbitraire, il vaut la peine de savoir ce que votre prédiction minimise.

Si toutefois votre objectif est de minimiser l'erreur absolue dans vos prévisions, la valeur moyenne prévue de 6 000 000 n'est pas celle avec laquelle j'irais.

— jlimahaverford
source

Merci pour le temps jlimahaverfold. Donc, si je vous comprends bien, voici une vraie déclaration (je pense que je le fais, ça «se sent mal» haha). Si j'avais une variable où l'on me donnait une estimation "ponctuelle" (en utilisant la moyenne), mais que les résidus étaient extrêmement anormaux (exponentiels par exemple), je pourrais obtenir la "distribution prévisionnelle" en échantillonnant essentiellement au hasard à partir de la distribution résiduelle 10k fois (monte carlo), puis la distribution nouvellement créée serait l'intervalle de prévision? Je pense que c'est ainsi que cela doit être fait, mais je veux confirmer que je comprends bien

— Anotherdream

Pour clarifier un peu plus ma question. Si quelqu'un a pris une prévision de moyenne mobile sur 6 mois, mais avait des résidus non normaux dans cette estimation ... Est-il correct de créer la distribution de prévision en échantillonnant à partir de la distribution résiduelle et en ajoutant la valeur à l'estimation ponctuelle de prévision moyenne, puis en calculant l'intervalle de prédiction à 95% à partir des centiles de cette distribution résultante? De plus, pouvez-vous spécifier ce que vous pourriez faire d'autre que la «moyenne» si je voulais minimiser l'erreur absolue dans une prédiction donnée pour des données très asymétriques? Encore une fois, j'apprécie vraiment votre aide!

— Anotherdream

J'ai toujours du mal à interpréter la question. Permettez-moi d'être clair sur ce que je recherche. J'ai une variable aléatoire X et des données {x1, x2, ... xN}. Je suppose que cette moyenne mobile sur 6 mois est quelque chose dans le sens de \ sum_ {j = i} ^ {i + 180} x_i / 180. Quelque chose dans ce sens. Quant à ce que je voulais dire sur la minimisation des résidus absolus, c'est simplement une autre fonction objective. Bien que la moyenne minimise la somme des résidus au carré, cela ne minimise pas nécessairement les résidus absolus, mais une certaine valeur (pas nécessairement unique) le fait.

— jlimahaverford

+1, très bon point sur une possible confusion sur les intervalles de prédiction et les intervalles de confiance. Soit dit en passant, si vous souhaitez minimiser l'erreur absolue attendue, vous utilisez la médiane de la distribution prédictive comme prévision ponctuelle ( voir ici ). Bien entendu, cela sera toujours inclus dans un intervalle de prédiction (central).

— Stephan Kolassa

Stephan. Votre commentaire aide un BUNCH. Je pense que c'est ce qui doit se produire dans l'avenir de ces estimations. Vraiment, je pense que le problème est que la moyenne était le mauvais endroit pour commencer à utiliser de telles distributions asymétriques ... Mais comme elles ont commencé ici, j'étais confus avec ce que je pouvais faire ... Est-il généralement `` acceptable '' d'utiliser une médiane comme une «estimation ponctuelle prévisionnelle» et lui donner des limites? Je suis très nouveau dans les prévisions et je ne sais pas si cela se fait généralement avec des distributions asymétriques ..

— Anotherdream

Considérons la distribution des retours possibles dans le paradoxe de Saint-Pétersbourg:

Prob (1) = 1/2

Prob (2) = 1/4

Prob (4) = 1/8 ... Prob (2 ^ n) = 1/2 ^ (n + 1)

La moyenne diverge et est en dehors de tout intervalle de prédiction raisonnable. (La médiane est 1 dans ce cas, mais je ne sais pas ce que j'utiliserais pour ma prévision ponctuelle. Peut-être que Stephan Kolassa, voir ci-dessus, a une suggestion.)

Il y a une autre complication: disons que vous voulez un intervalle de prédiction de 95% pour une distribution (autre que celle que je viens de mentionner). Passez-vous de la tuile 2,5% à la tuile 97,5% ou du 0 au 95e ou du 5e au 100e ou ....? La réponse dépend probablement de la raison pour laquelle vous posez la question.

— Emil Friedman
source