Pourquoi égaliser la différence au lieu de prendre la valeur absolue en écart type?
Nous comparons la différence des x à la moyenne car la distance euclidienne, proportionnelle à la racine carrée des degrés de liberté (nombre de x, dans une mesure de population), est la meilleure mesure de dispersion.
Calculer la distance
Quelle est la distance entre le point 0 et le point 5?
- 5−0=5 ,
- |0−5|=5 et
- 52−−√=5
Ok, c'est trivial parce que c'est une seule dimension.
Que diriez-vous de la distance pour un point au point 0, 0 au point 3, 4?
Si nous ne pouvons aller que dans une dimension à la fois (comme dans les quartiers), nous additionnons simplement les nombres. (Ceci est parfois appelé distance de Manhattan).
Mais qu'en est-il d'aller dans deux dimensions à la fois? Puis (d'après le théorème de Pythagore que nous avons tous appris au lycée), nous quadrillons la distance dans chaque dimension, additionnons les carrés, puis prenons la racine carrée pour trouver la distance entre l'origine et le point.
32+42−−−−−−√=25−−√=5
Que diriez-vous de la distance d'un point à 0, 0, 0 au point 1, 2, 2?
C'est juste
12+22+22−−−−−−−−−−√=9–√=3
parce que la distance pour les deux premiers x constitue la jambe pour calculer la distance totale avec le x final.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Nous pouvons continuer à étendre la règle du carré de la distance de chaque dimension, ce qui se généralise à ce que nous appelons une distance euclidienne, pour les mesures orthogonales dans un espace hyperdimensionnel, comme suit:
distance=∑i=1nx2i−−−−−√
et donc la somme des carrés orthogonaux est la distance au carré:
distance2=∑i=1nx2i
Qu'est-ce qui fait qu'une mesure est orthogonale (ou à angle droit) par rapport à une autre? La condition est qu’il n’y ait pas de relation entre les deux mesures. Nous chercherions à ce que ces mesures soient indépendantes et distribuées individuellement ( iid ).
Variance
Rappelons maintenant la formule de la variance de population (à partir de laquelle nous obtiendrons l’écart-type):
σ2=∑i=1n(xi−μ)2n
Si nous avons déjà centré les données à 0 en soustrayant la moyenne, nous avons:
σ2=∑i=1n(xi)2n
Nous voyons donc que la variance est simplement la distance au carré divisée par le nombre de degrés de liberté (le nombre de dimensions sur lesquelles les variables sont libres de varier). C'est également la contribution moyenne à la par mesure. "Variance quadratique moyenne" serait également un terme approprié.distance2
Écart-type
Ensuite, nous avons l’écart type, qui n’est que la racine carrée de la variance:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Qui est équivalent, la distance , divisée par la racine carrée des degrés de liberté:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Signifie une déviation absolue
La déviation absolue moyenne (MAD) est une mesure de la dispersion qui utilise la distance de Manhattan, ou la somme des valeurs absolues des différences par rapport à la moyenne.
MAD=∑i=1n|xi−μ|n
Là encore, en supposant que les données soient centrées (la moyenne soustraite), la distance de Manhattan est divisée par le nombre de mesures:
MAD=∑i=1n|xi|n
Discussion
- L’écart absolu moyen est environ 0,8 fois (en réalité2/π−−−√ ) la taille de l’écart-type d’un jeu de données normalement distribué.
- Quelle que soit la distribution, l'écart absolu moyen est inférieur ou égal à l'écart type. MAD minimise la dispersion d'un ensemble de données avec des valeurs extrêmes, par rapport à l'écart type.
- L’écart absolu moyen est plus robuste pour les valeurs aberrantes (c’est-à-dire que les valeurs aberrantes n’ont pas autant d’effet sur les statistiques que sur l’écart type.
- Géométriquement, si les mesures ne sont pas orthogonales les unes aux autres (iid) - par exemple, si elles étaient corrélées positivement, l’écart absolu moyen serait une meilleure statistique descriptive que l’écart type, qui repose sur la distance euclidienne (bien que cet écart soit généralement considéré comme fin). ).
Ce tableau reflète les informations ci-dessus de manière plus concise:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Commentaires:
Avez-vous une référence pour «l’écart absolu moyen est environ 0,8 fois la taille de l’écart-type d’un ensemble de données normalement distribué»? Les simulations en cours montrent que cela est inexact.
Voici 10 simulations d’un million d’échantillons de la distribution normale standard:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Conclusion
Nous préférons les différences au carré lorsque nous calculons une mesure de dispersion, car nous pouvons exploiter la distance euclidienne, ce qui nous donne une meilleure statistique descriptive de la dispersion. Lorsqu'il y a des valeurs plus relativement extrêmes, la distance euclidienne est prise en compte dans la statistique, tandis que la distance de Manhattan donne un poids égal à chaque mesure.