La raison la plus évidente est qu'il n'y a souvent pas de séquence temporelle dans les valeurs. Donc, si vous mélangez les données, cela ne fait aucune différence dans les informations véhiculées par les données. Si nous suivons votre méthode, chaque fois que vous mélangez les données, vous obtenez une variance d'échantillon différente.
La réponse plus théorique est que la variance de l'échantillon estime la vraie variance d'une variable aléatoire. La vraie variance d'une variable aléatoire est
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Ici, représente l'attente ou «valeur moyenne». La définition de la variance est donc la distance quadratique moyenne entre la variable et sa valeur moyenne. Lorsque vous regardez cette définition, il n'y a pas de "chronologie" car il n'y a pas de données. C'est juste un attribut de la variable aléatoire.E
Lorsque vous collectez des données iid à partir de cette distribution, vous avez des réalisations . La meilleure façon d'estimer l'attente est de prendre les moyennes de l'échantillon. La clé ici est que nous avons obtenu des données iid, et donc il n'y a pas d'ordre pour les données. L'échantillon est le même que l'échantillonx 1 , x 2 , … , x n x 2 , x 5 , x 1 , x n . .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
ÉDITER
La variance de l'échantillon mesure un type spécifique de dispersion pour l'échantillon, celui qui mesure la distance moyenne de la moyenne. Il existe d'autres types de dispersion comme la plage de données et la plage inter-quantile.
Même si vous triez vos valeurs par ordre croissant, cela ne change pas les caractéristiques de l'échantillon. Les échantillons (données) que vous obtenez sont des réalisations à partir d'une variable. Le calcul de la variance de l'échantillon revient à comprendre le degré de dispersion de la variable. Ainsi, par exemple, si vous échantillonnez 20 personnes et calculez leur taille, ce sont 20 "réalisations" de la variable aléatoire hauteur des personnes. Maintenant, la variance de l'échantillon est censée mesurer la variabilité de la taille des individus en général. Si vous commandez les données
100 , 110 , 123 , 124 , … ,X=
100,110,123,124,…,
cela ne change pas les informations de l'échantillon.
Regardons un autre exemple. disons que vous avez 100 observations à partir d'une variable aléatoire ordonnée de cette façon Ensuite, la moyenne la distance suivante est de 1 unités, donc selon votre méthode, la variance sera de 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
La façon d'interpréter la «variance» ou la «dispersion» consiste à comprendre quelle plage de valeurs sont susceptibles de contenir les données. Dans ce cas, vous obtiendrez une plage de .99 unité, ce qui bien sûr ne représente pas bien la variation.
Si au lieu de prendre la moyenne, vous additionnez simplement les différences ultérieures, votre variance sera de 99. Bien sûr, cela ne représente pas la variabilité dans l'échantillon, car 99 vous donne la plage des données, pas un sens de la variabilité.