Quand ne puis-je pas remplacer une variable aléatoire par sa moyenne?

Une simplification fréquente de la modélisation et de la simulation consiste à remplacer une variable aléatoire par sa valeur moyenne.

Quand cette simplification mènerait-elle à une mauvaise conclusion?

modeling mean random-variable

— Ankit Goyal
source

"Var" signifie-t-il variable ou variance ou Value At Risk ?

— Henry

Ce serait amusant de démarrer un service qui paie l'abonnement Netflix de ses membres. Nous facturons uniquement , où est sélectionné au hasard dans le domaine , donc, ya sais, Netflix gratuit! Plus tard, nous offrirons à certains clients la possibilité de payer à la place .

| x | \frac{U S D}{m o n t h}

$\left|x\right|~\frac{\mathrm{USD}}{\mathrm{month}}$

x

$x$

[- 100, 100]

$\left[-100,100\right]$

x^{2} \frac{U S D}{m o n t h}

$x^2~\frac{\mathrm{USD}}{\mathrm{month}}$

— Nat

Eh bien, dans un cas très simple, si nous poussons à l'extrême, nous pourrions perdre à peu près toutes les informations qui nous intéressent. Considérons une régression de Y sur X où nous avons remplacé à la fois Y et X par leur moyenne. Toutes les informations sur la pente sont désormais perdues.

— Dason

Demandez-vous de remplacer les valeurs manquantes ou demandez-vous de remplacer une variable aléatoire dans un contexte spécifique (par exemple, faire des prédictions sur la base d'un modèle à effets aléatoires)?

— IWS

Réponses:

Si vous remplacez une valeur manquante par une estimation ponctuelle, vous ignorez toute sa variabilité. Ainsi, vous ne propagerez pas toute la variabilité d'origine à votre modèle. Vos estimations de paramètres sembleront avoir des erreurs-types trop faibles . Si vous faites l'inférence, vos valeurs de p seront biaisées à un faible niveau. Votre intervalle de confiance sera trop étroit. Si vous faites de la prédiction, votre intervalle de prédiction sera trop étroit.

Dans l'ensemble: vous serez trop sûr de vos conclusions.

— Stephan Kolassa
source

Bonne réponse! Pensez à cette façon: une variable aléatoire a une distribution. Il peut être déporté vers la gauche, vers la droite. Je peux être bimodal, etc. En réduisant la variable à sa valeur moyenne, vous supprimez toutes ces informations supplémentaires (incertitude) et remplacez une distribution (intervalles) par une estimation ponctuelle unique.

— elevendollar

Si vous remplacez une valeur manquante par une estimation ponctuelle, vous supposez également que les données sont manquantes au hasard. La valeur moyenne de la variable aléatoire peut ne pas correspondre à la valeur moyenne des données lorsqu'elle est manquante.

— Neil G

@NeilG désolé de tergiverser, mais remplacer une valeur manquante par sa moyenne ne signifie pas directement supposer que les données sont manquantes au hasard. D'autant plus que la terminologie - quelque peu confuse - entourant les données manquantes considère que «manquant au hasard» est une donnée manquante au hasard conditionnée à d'autres données, mais connues ( en.wikipedia.org/wiki/Missing_data ). OMI, la façon dont les données sont remplacées n'implique rien sur le raisonnement qui les sous-tend. Ce raisonnement devrait être explicite et conduire à la manière appropriée de traiter les données manquantes. Cela dit, je suis entièrement d'accord avec la réponse de Stephan.

— IWS

@IWS Il est bon que les indicateurs de manque soient conditionnés par les données observées. Manquer au hasard signifie que les indicateurs de manque dépendent des données non observées. Si vous remplacez la variable par sa valeur moyenne conditionnelle à son observation, cela peut ne pas être identique à sa valeur moyenne inconditionnelle - à moins que les données manquent au hasard.

— Neil G

@NeilG Ne voulez-vous pas dire 'manquant complètement au hasard', quand vous écrivez 'manquant au hasard' dans la dernière phrase de votre dernier commentaire? Si c'est le cas, nous sommes d'accord, mais je parlais simplement de terminologie. (voir la page wiki que j'ai mise dans mon commentaire ci-dessus, j'ai toujours appris, lu et utilisé cette terminologie)

— IWS

En plus des points de Stephan:

Dans presque toutes les applications où vous êtes intéressé par les fonctions non linéaires de la variable aléatoire, le remplacement de la moyenne introduira généralement des biais et des résultats éventuellement contradictoires. La vitesse moyenne et la masse moyenne d'une particule ne seront généralement pas cohérentes avec l'énergie cinétique moyenne, car l'énergie évolue avec V ^ 2.
La valeur moyenne peut même ne pas être un résultat possible pour la variable aléatoire. Si mes résultats possibles sont 0 "patient décède" et 1 "vie de patient", il n'est probablement pas utile d'avoir un modèle qui décrit le patient comme 0,1 "principalement mort mais légèrement vivant".

— Geoffrey Brent
source

Obligatoire: youtube.com/watch?v=xbE8E1ez97M

— Alexis

@Alexis mais bien sûr!

— Geoffrey Brent du

Un exemple réel (lié aux deux réponses que vous avez obtenues), sur les marchés financiers. Le prix d'une option est basé sur la probabilité que le prix d'un actif passe au-dessus (ou en dessous) d'un niveau donné.

Par exemple, le prix d'une option d'achat d'un actif à un prix de 100 lorsque la valeur attendue de l'actif est de 80. Si vous substituez la variable aléatoire (le prix de l'actif) par sa moyenne, vous obtiendrez un prix de zéro (comme vous ne seriez jamais à 100 un actif qui coûte 80). Lorsque vous tenez compte de la stochasticité de l'actif (et c'est la bonne façon de le faire), vous obtenez un prix positif, car il y a une certaine probabilité que le prix de l'actif dépasse 100.

— Juan Ignacio Gil
source