Correction du biais dans la variance pondérée

Pour la variance non pondérée il existe la variance d'échantillon corrigée du biais, lorsque la moyenne a été estimée à partir des mêmes données:

Var (X) := \frac{1}{n} \sum_{i} (x_{i} - μ)^{2}

$\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2$

Var (X) := \frac{1}{n - 1} \sum_{i} (x_{i} - E [X])^{2}

$\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2$

J'examine la moyenne et la variance pondérées et je me demande quelle est la correction de biais appropriée pour la variance pondérée. En utilisant:

mean (X) := \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} x_{i}

$\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i$

La variance "naïve", non corrigée que j'utilise est la suivante:

Var (X) := \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$

Je me demande donc si la bonne façon de corriger le biais est

Var (X) := \frac{1}{\sum_{i} ω_{i} - 1} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2$

ou B)

Var (X) := \frac{n}{n - 1} \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$

ou C)

Var (X) := \frac{\sum_{i} ω_{i}}{(\sum_{i} ω_{i})^{2} - \sum_{i} ω_{i}^{2}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2$

A) n'a pas de sens pour moi lorsque les poids sont petits. La valeur de normalisation pourrait être 0 ou même négative. Mais qu'en est-il de B) ( est le nombre d'observations) - est-ce la bonne approche? Avez-vous une référence qui le montre? Je crois que «la mise à jour des estimations de la moyenne et de la variance: une méthode améliorée», DHD West, 1979 utilise cela. Le troisième, C) est mon interprétation de la réponse à cette question: /mathpro/22203/unbias-estimate-of-the-variance-of-an-unnormalised-weighted-mean $n$

Pour C) je viens de réaliser que le dénominateur ressemble beaucoup à . Y a-t-il un lien général ici? Je pense que cela ne correspond pas entièrement; et il y a évidemment le lien que nous essayons de calculer la variance ... $\text{Var}(\Omega)$

Tous les trois semblent "survivre" à la vérification de la raison de fixer tous . Alors, lequel dois-je utiliser, sous quels locaux? '' Mise à jour: '' whuber a suggéré de faire également le test de santé mentale avec et tous les restants minuscules. Cela semble exclure A et B. $\omega_i=1$ $\omega_1=\omega_2=.5$ $\omega_i=\epsilon$

— Anony-Mousse -Reinstate Monica
source

Lorsque vous considérez les cas où les deux poids les plus importants sont égaux et tous les autres deviennent extrêmement faibles, (A) et (B) tombent de la discorde (car ils ne sont pas d'accord avec les résultats connus pour

). (C) semble être une approximation; Je soupçonne que le bon facteur est une fonction beaucoup plus compliquée des poids.

n = 2

$n=2$

— whuber

@whuber ThePawn ci-dessous suggère qu'il s'agit de C. Avez-vous des préoccupations plus détaillées?

— Anony-Mousse -Reinstate Monica

La solution (A) fonctionne, je l'ai mise en œuvre dans le passé et je peux confirmer à partir de tests empiriques qu'elle donne les bons résultats. Cependant, vous ne devez utiliser que des valeurs entières pour les poids et> 0.

— gaborous

Merci! Cela m'a beaucoup aidé à me mettre sur la bonne voie lorsque les poids sont pour une moyenne mobile exponentielle! Il s'avère que la façon naïve de calculer la variance la surestime en fait d'un facteur constant de 2, en plus de la petite correction (1-1 / n) qui apparaît de manière analogue au calcul de la moyenne mobile simple. C'est un cas spécial particulièrement fou!

— saolof

Réponses:

Je suis passé par le calcul et je me suis retrouvé avec la variante C:

V une r (X) = \frac{(\sum_{je} ω_{je})^{2}}{(\sum_{je} ω_{je})^{2} - \sum_{je} ω_{je}^{2}} \bar{V}

$Var(X) = \frac{(\sum_i \omega_i)^2}{(\sum_i \omega_i)^2 - \sum_i \omega_i^2}\overline V$

\bar{V}

$\overline V$

ω_{i}

$\omega_i$

$\lambda_i = \frac{\omega_i}{\sum_i \omega_i}$

\bar{V} = \sum_{je} λ_{je} (X_{je} - \sum_{j} λ_{j} X_{j})^{2}

$\overline V = \sum_i \lambda_i (x_i - \sum_j \lambda_j x_j)^2$

(X_{je} - \sum_{j} λ_{j} X_{j})^{2} = X_{je}^{2} + \sum_{j, k} λ_{j} λ_{k} X_{j} X_{k} - 2 \sum_{j} λ_{j} X_{je} X_{j}

$(x_i - \sum_j \lambda_j x_j)^2 = x_i^2 + \sum_{j, k} \lambda_j \lambda_k x_j x_k - 2 \sum_j \lambda_j x_i x_j$

$E[x_i x_j] = Var(X)1_{i = j} + E[X]^2$ $E[X]$

E [\bar{V}] = V une r (X) \sum_{je} λ_{je} (1 + \sum_{j} λ_{j}^{2} - 2 λ_{je})

$E[\overline V] = Var(X) \sum_i \lambda_i (1 + \sum_j \lambda_j^2- 2 \lambda_i )$

E [\bar{V}] = V une r (X) (1 - \sum_{j} λ_{j}^{2})

$E[\overline V] = Var(X) (1 - \sum_j \lambda_j^2)$

λ_{i}

$\lambda_i$

ω_{i}

$\omega_i$

— ThePawn
source

C'est la variante C ci-dessus, n'est-ce pas?

— Anony-Mousse -Reinstate Monica

Oups, oui, c'est la variante C.

— ThePawn

J'ai vérifié cette solution empiriquement et cela ne fonctionne PAS ... La seule solution qui le soit est la solution (A) que j'ai également mise en œuvre par le passé par moi-même, mais cela ne fonctionne qu'avec des poids entiers et> = 0

— gaborous

Cette équation est fausse selon Wikipedia, Matlab, R et d'autres qui implémentent cette équation. Le numérateur ici est carré, mais il ne devrait PAS, il devrait être exactement comme le (C) proposé par l'OP. Voir en.wikipedia.org/wiki/…

— gaborous

@rajatkhanduja Je ne parlais pas de la preuve mais de l'équation dérivée finale (celle du haut dans cette réponse). Mais en effet c'est correct, le numérateur est juste au carré parce que nous multipyons par V, donc le numérateur finit par être non carré. Quoi qu'il en soit, cet estimateur reste biaisé, comme je l'explique dans ma réponse ci-dessous, car il repose sur des pondérations de type «fiabilité».

— génial

A et C sont corrects, mais celui que vous utiliserez dépend du type de poids que vous utilisez:

A a besoin que vous utilisiez des poids de type "répétition" (entiers comptant le nombre d'occurrences pour chaque observation), et est non biaisé .
C a besoin que vous utilisiez des poids de type «fiabilité» (soit des poids normalisés, soit des variances pour chaque observation) et est biaisé . Cela ne peut pas être impartial.

La raison pour laquelle C est nécessairement biaisé est que si vous n'utilisez pas de poids de type "répétition", vous perdez la possibilité de compter le nombre total d'observations (taille de l'échantillon) et vous ne pouvez donc pas utiliser un facteur de correction.

Pour plus d'informations, consultez l'article Wikipédia mis à jour récemment: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

— généreux
source