Pourquoi l'écart-type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?

Aujourd'hui, j'ai enseigné une classe d'introduction à la statistique et un étudiant m'a posé une question que je reformule ici: "Pourquoi l'écart type est-il défini comme le carré de la variance et non comme le carré de la somme des carrés sur N?"

Nous définissons la variance de la population: $\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2}$

Et écart type: $\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}}$ .

L'interprétation que nous pouvons donner à $\sigma$ est qu'il donne l'écart moyen des unités de la population de la moyenne de la population de $X$ .

Cependant, dans la définition du sd, nous divisons le sqrt de la somme des carrés par $\sqrt{N}$ . L'élève pose la question de savoir pourquoi nous ne divisons pas le carré du volume des carrés par $N$ place. On arrive ainsi à la formule concurrente:

σ_{n e w} = \frac{1}{N} \sqrt{\sum (x_{i} - μ)^{2}} .

$\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.$ L'élève a soutenu que cette formule ressemble davantage à un écart «moyen» de la moyenne qu'à la division par

\sqrt{N}

$\sqrt{N}$ comme dans

σ

$\sigma$ .

Je pensais que cette question n'était pas stupide. Je voudrais donner une réponse à l'étudiant qui va plus loin que de dire que le sd est défini comme sqrt de la variance qui est la déviation quadratique moyenne. Autrement dit, pourquoi l'élève devrait-elle utiliser la bonne formule et ne pas suivre son idée?

Cette question concerne un fil plus ancien et les réponses fournies ici . Les réponses vont dans trois directions:

$\sigma$ est la déviation quadratique moyenne (RMS), et non la déviation "typique" de la moyenne (c'est-à-dire, $\sigma_{new}$ ). Ainsi, il est défini différemment.
Il a de belles propriétés mathématiques.
De plus, le sqrt ramènerait les "unités" à leur échelle d'origine. Cependant, ce serait également le cas pour $\sigma_{new}$ , qui se divise par $N$ place.

Les deux points 1 et 2 sont des arguments en faveur du sd comme RMS, mais je ne vois pas d'argument contre l'utilisation de $\sigma_{new}$ . Quels seraient les bons arguments pour convaincre les élèves du niveau d'introduction de l'utilisation de la distance RMS moyenne $\sigma$ de la moyenne?

— tomka
source

Je pense que la question même "Pourquoi l'écart-type est défini comme ..." est difficile à répondre. Les définitions ne sont que des conventions d'étiquetage arbitraires. Ils n'ont pas à se conformer au pourquoi .

— ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Serait-ce que ce qui se trouve à l'intérieur des parenthèses s'est en quelque sorte perdu dans la question?

— ttnphns

Mais sd sert une série d'objectifs; il doit y avoir une meilleure motivation que celle définie comme ça. Cela serait utile, en particulier pour enseigner aux étudiants de premier cycle. Je peux imaginer une motivation dans le sens de l'inégalité de Tchebychev (min. De proportion de cas dans le domaine de +/- un facteur constant de sd).

— tomka

Je ne peux pas répondre parce que votre Q est en attente, mais essayez ceci: Imaginez que vous observez les valeurs 1 et 3 dans des proportions à peu près égales (jetez une pièce,

H = 3

$H=3$ ,

T = 1

$T=1$ ). Une «distance typique» des observations à partir de la moyenne devrait être quelque chose comme 1. Avec votre

\sqrt{S S E} / n

$\sqrt{SSE}/n$ formule, considérons ce qui arrive à cette mesure de distance typique pour

n

$n$ très, très grand. Dans chaque cas

| x_{i} - \bar{x} |

$|x_i-\bar{x}|$ sera proche de 1, donc leur somme de carrés sera proche de

n

$n$ . Le numérateur sera proche de

\sqrt{n}

$\sqrt{n}$ pour que votre formule devienne de plus en plus petite à mesure que

n

$n$ augmente, même si la distance typique de la moyenne ne change pas.

— Glen_b -Reinstate Monica

@whuber J'ai fait une autre mise à jour et j'espère que le point que je soulève est plus clair maintenant. Remarque Je demande ici des conseils pédagogiques en plus de poser une question sur les fondements de la statistique. Je ne suggère pas une formule alternative, mais j'ai donné un exemple tiré d'une situation en classe d'une bonne question d'un élève à laquelle je n'avais pas de réponse immédiate. Si vous êtes d'accord, je vous prie de bien vouloir suspendre la question maintenant.

— tomka

Réponses:

Il y a au moins trois problèmes de base qui peuvent être facilement expliqués aux débutants:

La «nouvelle» SD n'est même pas définie pour des populations infinies. (On pourrait le déclarer toujours égal à zéro dans de tels cas, mais cela ne le rendrait pas plus utile.)
La nouvelle SD ne se comporte pas comme une moyenne devrait le faire avec un échantillonnage aléatoire.
Bien que la nouvelle SD puisse être utilisée avec toute la rigueur mathématique pour évaluer les écarts par rapport à une moyenne (dans les échantillons et les populations finies), son interprétation est inutilement compliquée.

1. L'applicabilité de la nouvelle SD est limitée

Le point (1) pourrait être rappelé, même à ceux qui ne connaissent pas l'intégration, en soulignant que, comme la variance est clairement une moyenne arithmétique (des écarts au carré), elle a une extension utile aux modèles de populations "infinies" pour lesquels la l'intuition de l'existence d'une moyenne arithmétique est toujours valable. Par conséquent, sa racine carrée - la SD habituelle - est parfaitement bien définie dans de tels cas également, et tout aussi utile dans son rôle de (réexpression non linéaire) d'une variance. Cependant, la nouvelle SD divise cette moyenne par le grand arbitraire , rendant problématique sa généralisation au-delà des populations finies et des échantillons finis: que faut-il $\sqrt{N}$ être pris pour égal dans de tels cas? $1/\sqrt{N}$

2. Le nouveau SD n'est pas une moyenne

Toute statistique digne du nom «moyenne» devrait avoir la propriété de converger vers la valeur de la population à mesure que la taille d'un échantillon aléatoire de la population augmente. Tout multiple fixe de SD aurait cette propriété, car le multiplicateur s'appliquerait à la fois au calcul de l'échantillon SD et de la population SD. (Bien qu'elle ne contredit pas directement l'argument avancé par Alecos Papadopoulos, cette observation suggère que l'argument n'est que tangentiel aux vrais problèmes.) Cependant, la "nouvelle" SD, étant égale à fois l'habituel, converge évidemment versdans tous les cas à mesure que la taille de l'échantillonaugmente. Par conséquent,bien que pour toute taille d'échantillon fixela nouvelle SD (interprétée de manière appropriée) soit une mesure de variation parfaitement adéquate autour de la moyenne,elle ne peut pas à juste titre être considérée comme unemesureuniverselleapplicable, avec la même interprétation, pour toutes les tailles d'échantillon, et elle ne peut pas non plus correctement être appelé une «moyenne» dans tout sens utile. $1/\sqrt{N}$ $0$ $N$ $N$

3. La nouvelle SD est compliquée à interpréter et à utiliser

Envisagez de prélever des échantillons de (disons) taille . La nouvelle SD dans ces cas est $N=4$ fois l'habituel SD. Il bénéficie donc d'interprétations comparables, comme un analogue de la règle 68-95-99 (environ 68% des données devraient se situer dansdeuxnouvelles SD de la moyenne, 95% d'entre elles dansquatrenouvelles SD de la moyenne,etc.; et les versions des inégalités classiques telles que celles de Chebychev (pas plus dedes données peuvent se trouver à plus denouveaux SD de leur moyenne); et le théorème de la limite centrale peut être reformulé de manière analogue en termes de nouveau SD (on divise par $1/\sqrt{N}=1/2$ $1/k^2$ $2k$ fois la nouvelle SD afin de standardiser la variable). Ainsi, dans ce sens spécifique et clairement contraint,il n'y a rien de mal à la proposition de l'étudiant. La difficulté, cependant, est que ces énoncés contiennent tous - de manière très explicite - des facteurs de $\sqrt{N}$ . Bien qu'il n'y ait aucun problème mathématique inhérent à cela, cela complique certainement les déclarations et l'interprétation des lois les plus fondamentales de la statistique. $\sqrt{N}=2$

Il est à noter que Gauss et d'autres ont à l'origine paramétré la distribution gaussienne par , en utilisant efficacement $\sqrt{2}\sigma$ fois la SD pour quantifier la propagation d'une variable aléatoire normale. Cette utilisation historique démontre la pertinence et l'efficacité de l'utilisation d'autresmultiplesfixesde la SD à sa place. $\sqrt{2}$

— whuber
source

Merci - une question de retour (concernant votre point 2): est-ce que

ne converge pas vers

lorsque

grandit, alors que

\frac{1}{\sqrt{N}}

$\frac{1}{\sqrt{N}}$

0

$0$

N

$N$

évidemment?

\frac{1}{N}

$\frac{1}{N}$

— tomka

Nous comparons la SD de l'échantillon à

fois la SD de l'échantillon (la "nouvelle SD"). À mesure que

grandit, l'écart-type de l'échantillon se rapproche d'uneconstante(généralement) non nulleégale à l'écart-type de la population. Donc

1 / \sqrt{N}

$1/\sqrt{N}$

N

$N$

fois l'échantillon SD converge vers zéro.

1 / \sqrt{N}

$1/\sqrt{N}$

— whuber

C'est du matériel standard - consultez n'importe quel manuel rigoureux de statistiques mathématiques (qui, pour être honnête, ne serait pas accessible à la plupart des débutants). Cependant, les résultats importants pour ma réponse découlent d'une déclaration plus faible et intuitivement évidente. Fixons un nombre

et soit

la population SD. Considérez la chance que l'échantillon SD se situe entre

. Il suffit que cette chance passe à zéro lorsque la taille de l'échantillon

augmente. Cela montre à lui seul que

A > 1

$A \gt 1$

σ

$\sigma$

σ / A

$\sigma/A$

A σ

$A\sigma$

N

$N$

1 / \sqrt{N}

$1/\sqrt{N}$ times the sample SD converges to

0

$0$ almost surely, demonstrating point (2) in the answer.

— whuber

+1, plus it is not scale-invariant etc, (a condition necessary for a moment of this form)

— Nikos M.

@Nikos Thank you, but what is not scale invariant? Both

S D / \sqrt{N}

$SD/\sqrt{N}$ and

S D

$SD$ change when the data are rescaled.

— whuber

Assume that your sample contains only two realizations. I guess an intuitive measure of dispersion would be the average absolute deviation (AAD)

A A D = \frac{1}{2} (| x_{1} - \bar{x} | + | x_{2} - \bar{x} |) = . . . = \frac{| x_{1} - x_{2} |}{2}

$AAD = \frac 12 (|x_1-\bar x| + |x_2-\bar x|) = ...= \frac {|x_1-x_2|}{2}$

So we would want other measures of dispersion at the same level of units of measurement to be "close" to the above.

The sample variance is defined as

σ^{2} = \frac{1}{2} [(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2}] = \frac{1}{2} [{(\frac{x_{1} - x_{2}}{2})}^{2} + {(\frac{x_{2} - x_{1}}{2})}^{2}]

$\sigma^2=\frac{1}{2}[(x_1-\bar x)^2 + (x_2-\bar x)^2] = \frac 12 \left[\left(\frac {x_1-x_2}{2}\right)^2 + \left(\frac {x_2-x_1}{2}\right)^2\right]$

= \frac{1}{2} [\frac{(x_{1} - x_{2})^{2}}{4} + \frac{(x_{1} - x_{2})^{2}}{4}] = \frac{1}{2} \frac{(x_{1} - x_{2})^{2}}{2}

$=\frac 12 \left[\frac {(x_1-x_2)^2}{4} + \frac {(x_1-x_2)^2}{4}\right]=\frac 12 \frac {(x_1-x_2)^2}{2}$

= \frac{1}{2} \cdot \frac{| x_{1} - x_{2} |^{2}}{2}

$=\frac 12\cdot \frac {|x_1-x_2|^2}{2}$

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it $q$

q \equiv \frac{1}{2} \cdot \sqrt{\frac{| x_{1} - x_{2} |^{2}}{2}} = \frac{1}{2} \frac{| x_{1} - x_{2} |}{\sqrt{2}} = \frac{1}{\sqrt{2}} A A D < A A D

$q \equiv \frac 12\cdot \sqrt {\frac {|x_1-x_2|^2}{2}} = \frac 12 \frac {|x_1-x_2|}{\sqrt 2} = \frac 1{\sqrt 2} AAD < AAD$

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

S D \equiv \sqrt{σ^{2}} = \frac{| x_{1} - x_{2} |}{2} = A A D

$SD \equiv \sqrt {\sigma^2} = \frac {|x_1-x_2|}{2} =AAD$

Since we want to "stay as close as possible" to the intuitive measure, we should use $SD$ .

ADDENDUM
Let's consider now a sample of size $n$ We have

n \cdot A A D = \sum_{i = 1}^{n} | x_{i} - \bar{x} |

$n\cdot AAD = \sum_{i=1}^n |x_i-\bar x|$

and

n \cdot Var (X) = \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2}

$n \cdot \text{Var}(X) = \sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n |x_i-\bar x|^2$

we can write the right-hand side of the variance expression as

\sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2} = {(\sum_{i = 1}^{n} | x_{i} - \bar{x} |)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$\sum_{i=1}^n |x_i-\bar x|^2 = \left(\sum_{i=1}^n |x_i-\bar x|\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

= {(n \cdot A A D)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$= \left (n\cdot AAD\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

Then the dispersion measure $q_n$ will be

q_{n} \equiv \frac{1}{n} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$q_n \equiv \frac 1n \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[A A D^{2} - \frac{1}{n^{2}} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[AAD^2 - \frac 1{n^2} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Now think informally: note that $\sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$ contains $n^2-n$ terms, and so divided by $n^2$ will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in $AAD^2$ : this is a primitive way to "sense" why $q_n$ will tend to zero as $n$ grows large. On the other hand the Standard Deviation as defined would be

S D \equiv \frac{1}{\sqrt{n}} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$SD \equiv \frac 1{\sqrt n} \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[n \cdot A A D^{2} - \frac{1}{n} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[n\cdot AAD^2 - \frac 1{n} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Continuing are informal thinking, the first term gives us $n$ "terms in the 2nd power", while the second term gives us $n-1$ "terms in the second power" . So we will be left eventually with one such term, as $n$ grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any $n$ , as well as for the case when $n\rightarrow \infty$ .

— Alecos Papadopoulos
source

Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).

— whuber

@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!

— Alecos Papadopoulos