L'utilisation de l'écart-type repose-t-elle sur l'hypothèse d'une distribution normale?

10

Je me demande si l'écart-type a toujours été construit sur l'hypothèse d'une distribution normale. En d'autres termes, si l'échantillon n'est pas distribué normalement, l'utilisation de l'écart-type doit-elle être considérée comme une erreur?

normal-distribution standard-deviation

— Dougal
source

3

Une distribution uniforme a un écart type, comment cela pourrait-il être une "erreur"?

18

Non. L'utilisation de l'écart-type ne suppose pas la normalité.

La variance d'une variable aléatoire est définie comme . Tant que la variance existe, l'écart type existe également. L'écart type est la racine carrée de la variance. $\operatorname{Var}(X) = \operatorname{E}[(X - \operatorname{E}[X])^2]$

Vous pouvez utiliser la variance ou l'écart-type chaque fois que les deux existent. L'écart apparaît dans d'innombrables situations. $\operatorname{Var}(X)$

Il y a des théorèmes spéciaux, des lemmes etc ... mais pour le cas spécial où suit la distribution normale. $X$

Une utilisation courante de l'écart-type qui dépend de la normalité:

Si suit la distribution normale, il y a alors une probabilité d'environ 95% que tombe dans les deux écarts-types de la moyenne. $X$ $X$

Cette affirmation est vraie si suit la distribution normale (et plusieurs autres) mais ce n'est pas vrai en général. $X$

Une utilisation courante de la variance qui ne dépend pas de la normalité:

Soit une variable aléatoire avec une moyenne et une variance . Définir pour comme des variables aléatoires indépendantes, chacune après la distribution identique à . $X$ $\operatorname{E}[X] = \mu$ $\operatorname{Var}(X) = \sigma^2$ $X_i$ $i=1, \ldots, n$ $X$

Définissez la moyenne de l'échantillon sur la base de observations: $n$

{\bar{X}}_{n} = \frac{1}{n} \sum_{je = 1}^{n} X_{je}

$\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i$

D'après le théorème de la limite centrale, converge vers une variable aléatoire normalement distribuée de moyenne et de variance $\bar{X}_n$ $\mu$ . (Plus précisément $\frac{\sigma^2}{n}$ converge en distribution verscomme.) $\sqrt{n}\left( \bar{X}_n - \mu \right)$ $\mathcal{N}(0,\sigma^2)$ $n \rightarrow \infty$

L'implication pratique est que la moyenne de l'échantillon pour les grands peut être traitée comme une variable aléatoire normalement distribuée dont la variance $\bar{X}_n$ $n$ est une fonction de la variance de. (Rappel) Et ce résultat ne nécessite pas quesoit normal. (Il faut cependant uninférieurpour bien fonctionner siest plus proche dans un certain sens de la distribution normale.) $\frac{\sigma^2}{n}$ $X$ $\operatorname{Var}(X)=\sigma^2$ $X$ $n$ $X$

Le théorème de la limite centrale est un outil omniprésent qui utilise la variance de et n'a pas besoin de pour suivre la distribution normale. $X$ $X$

— Matthew Gunn
source

4

L'inégalité de Chebyshev n'est pas spécifique à la variance: une version tout aussi utile existe pour chaque moment absolu avec une puissance supérieure à

. Je suggérerais donc de chercher ailleurs les raisons pour lesquelles le DS est important et (presque) universel, comme le rôle unique joué par la variance dans le théorème de limite centrale.

1

$1$

— whuber

@whuber Ouais, j'avais commencé à écrire un exemple CLT (et maintenant je l'ai ajouté). Le CLT est une raison extrêmement pratique de se soucier de la variance.

— Matthew Gunn

1

+1. Mais notez que bien que la variance (avec la moyenne) donne une description complète dans le cas normal, pour la distribution non normale, cela pourrait ne plus être le cas, et d'autres d3scripteurs des données pourraient être beaucoup mieux

— kjetil b halvorsen

2

$S^2$ $\hat{\sigma}^2_{ML}$ $\mathrm{Var}[X_i]$

— Zen
source