La variance pondérée non biaisée a déjà été abordée ici et ailleurs, mais il semble toujours y avoir une confusion surprenante. Il semble y avoir un consensus sur la formule présentée dans le premier lien ainsi que dans l'article Wikipedia . Cela ressemble également à la formule utilisée par R, Mathematica et GSL (mais pas MATLAB). Cependant, l'article Wikipédia contient également la ligne suivante qui ressemble à un excellent test de cohérence pour une implémentation de la variance pondérée:
Par exemple, si les valeurs {2,2,4,5,5,5} sont tirées de la même distribution, alors nous pouvons traiter cet ensemble comme un échantillon non pondéré, ou nous pouvons le traiter comme l'échantillon pondéré {2,4, 5} avec les poids correspondants {2,1,3}, et nous devrions obtenir les mêmes résultats.
Mes calculs donnent la valeur de 2,1667 pour la variance des valeurs d'origine et de 2,9545 pour la variance pondérée. Dois-je vraiment m'attendre à ce qu'ils soient les mêmes? Pourquoi ou pourquoi pas?