Mon intuition est que l'écart-type est: une mesure de la diffusion des données.
Vous avez raison de dire que si elle est large ou serrée, cela dépend de notre hypothèse sous-jacente pour la distribution des données.
Mise en garde: Une mesure de l'écart est plus utile lorsque la distribution de vos données est symétrique autour de la moyenne et a une variance relativement proche de celle de la distribution normale. (Cela signifie qu'il est approximativement normal.)
Dans le cas où les données sont approximativement normales, l'écart type a une interprétation canonique:
- Région: Échantillon moyen +/- 1 écart-type, contient environ 68% des données
- Région: Échantillon standard +/- 2 écart-type, contient environ 95% des données
- Région: Échantillon de l'écart-type moyen +/- 3, contient environ 99% des données
(voir le premier graphique du Wiki )
Cela signifie que si nous savons que la moyenne de la population est de 5 et que l'écart-type est de 2,83 et que nous supposons que la distribution est approximativement normale, je vous dirais que je suis raisonnablement certain que si nous faisons (un grand) nombre d'observations, seulement 5% être inférieur à 0,4 = 5 - 2 * 2,3 ou supérieur à 9,6 = 5 + 2 * 2,3.
Remarquez quel est l'impact de l'écart-type sur notre intervalle de confiance? (plus il y a de dispersion, plus il y a d'incertitude)
De plus, dans le cas général où les données ne sont même pas approximativement normales, mais toujours symétriques, vous savez qu'il existe des pour lesquels:α
- Région: Échantillon standard ± écart type, contient environ 95% des donnéesα
Vous pouvez soit apprendre l' partir d'un sous-échantillon, soit supposer α = 2 et cela vous donne souvent une bonne règle de base pour calculer dans votre tête quelles observations futures attendre, ou lesquelles des nouvelles observations peuvent être considérées comme des valeurs aberrantes. (gardez à l'esprit la mise en garde!)αα=2
Je ne vois pas comment vous êtes censé l'interpréter. Est-ce que 2,83 signifie que les valeurs sont très répandues ou sont-elles toutes étroitement regroupées autour de la moyenne ...
Je suppose que chaque question demandant "large ou serré", devrait également contenir: "par rapport à quoi?". Une suggestion pourrait être d'utiliser une distribution bien connue comme référence. Selon le contexte, il pourrait être utile de penser: "Est-il beaucoup plus large ou plus serré qu'un Normal / Poisson?".
EDIT: Sur la base d'un indice utile dans les commentaires, un aspect de plus sur l'écart-type en tant que mesure de distance.
Une autre intuition encore de l'utilité de l'écart type est qu'il s'agit d'une mesure de distance entre les données d'échantillon x 1 , … , x N et sa moyenne ˉ x :sNx1,…,xNx¯
sN=1N∑Ni = 1(xje- x¯¯¯)2−------------√
À titre de comparaison, l'erreur quadratique moyenne (ESM), l'une des mesures d'erreur les plus courantes en statistique, est définie comme suit:
MSE = 1n∑ni = 1( Oje^- Ouije)2
Les questions peuvent être posées pourquoi la fonction de distance ci-dessus? Pourquoi des distances au carré, et non des distances absolues par exemple? Et pourquoi prenons-nous la racine carrée?
Le fait d'avoir des fonctions de distance quadratique, ou d'erreur, a l'avantage de pouvoir à la fois les différencier et les minimiser facilement. En ce qui concerne la racine carrée, elle ajoute à l'interprétabilité car elle convertit l'erreur à l'échelle de nos données observées.