Pourquoi égaliser la différence au lieu de prendre la valeur absolue en écart type?


408

Dans la définition de l’écart-type, pourquoi devons-nous équilibrer la différence avec la moyenne pour obtenir la moyenne (E) et reprendre la racine carrée à la fin? Ne pouvons-nous pas simplement simplement prendre la valeur absolue de la différence et obtenir la valeur attendue (moyenne) de celles-ci, et cela ne montrerait-il pas également la variation des données? Le nombre sera différent de la méthode carrée (la méthode de la valeur absolue sera plus petite), mais elle devrait toujours montrer l'étalement des données. Quelqu'un sait pourquoi nous prenons cette approche carrée comme norme?

La définition de l'écart type:

σ=E[(Xμ)2].

Ne pouvons-nous pas simplement prendre la valeur absolue à la place et rester une bonne mesure?

σ=E[|Xμ|]


25
En un sens, la mesure que vous avez proposée est largement utilisée en cas d’analyse d’erreur (qualité du modèle) - elle s’appelle alors MAE, "erreur absolue moyenne".

8
En acceptant une réponse, il me semble important que nous examinions attentivement si la réponse est circulaire. La distribution normale est basée sur ces mesures de variance à partir de termes d'erreur au carré, mais cela ne constitue pas en soi une justification pour l'utilisation de (XM) ^ 2 sur | XM |.
russellpierce

2
Pensez-vous que le terme standard signifie qu'il s'agit de la norme aujourd'hui? N'est-ce pas comme demander pourquoi la composante principale est "principale" et non secondaire?
robin girard

51
Chaque réponse proposée jusqu'à présent est circulaire. Ils se concentrent sur la facilité des calculs mathématiques (ce qui est agréable mais nullement fondamental) ou sur les propriétés de la distribution gaussienne (normale) et de la méthode MCO. Vers 1800, Gauss a commencé avec les moindres carrés et la variance, et à partir de ceux dérivés de la distribution normale, il y a la circularité. Une raison véritablement fondamentale qui n'a encore été invoquée dans aucune réponse est le rôle unique joué par la variance dans le théorème de la limite centrale . Une autre est l’importance dans la théorie de la décision de minimiser la perte quadratique.
whuber

2
Sur Edge.org, Taleb plaide en faveur de l' élimination de l'écart type et de l'utilisation de l'écart absolu moyen.
Alex Holcombe

Réponses:


188

Si l'objectif de l'écart type est de résumer la dispersion d'un ensemble de données symétriques (c.-à-d. En général à quelle distance se situe chaque donnée par rapport à la moyenne), nous avons besoin d'une bonne méthode pour définir comment mesurer cette dispersion.

Les avantages de la quadrature incluent:

  • La quadrature donne toujours une valeur positive, donc la somme ne sera pas nulle.
  • La quadrature met l'accent sur les différences plus grandes - une caractéristique qui s'avère être à la fois bonne et mauvaise (pensez aux effets aberrants).

La quadrature pose cependant un problème en tant que mesure de propagation: les unités sont toutes au carré, alors que nous pourrions préférer que la propagation soit dans les mêmes unités que les données originales (pensez aux livres au carré, aux dollars carrés ou aux pommes au carré). . Par conséquent, la racine carrée nous permet de revenir aux unités d'origine.

Je suppose que vous pourriez dire que la différence absolue attribue un poids égal à la dispersion des données, alors que la quadrature met l'accent sur les extrêmes. Cependant, techniquement, comme d’autres l’ont souligné, la quadrature rend l’algèbre beaucoup plus facile à utiliser et offre des propriétés que la méthode absolue ne permet pas (par exemple, la variance est égale à la valeur attendue du carré de la distribution moins le carré de la moyenne de la distribution)

Il est important de noter cependant qu'il n'y a aucune raison que vous ne puissiez pas prendre la différence absolue si telle est votre préférence sur la façon dont vous souhaitez voir la propagation (en quelque sorte comment certaines personnes voient dans 5% un seuil magique pour lesvaleurs, alors qu’il dépend de la situation). En effet, il existe plusieurs méthodes concurrentes pour mesurer la propagation.p

Mon point de vue est d’utiliser les valeurs au carré car j’aime réfléchir à la manière dont il s’agit du théorème de Pythagore des statistiques: … cela m’aide aussi à me rappeler que lorsque je travaille avec des variables aléatoires indépendantes , les écarts ajoutent, les écarts-types ne le font pas. Mais ce n'est que ma préférence subjective personnelle, que je n'utilise surtout que comme aide-mémoire, n'hésitez pas à ignorer ce paragraphe.c=a2+b2

Une analyse beaucoup plus approfondie peut être lue ici .


72
"La quadrature donne toujours une valeur positive, donc la somme ne sera pas nulle." et les valeurs absolues aussi.
robin girard

32
@ robin girard: C'est exact, c'est pourquoi j'ai précédé ce point avec "Les avantages de la quadrature incluent". Je n'impliquais rien de ce qui concerne les valeurs absolues dans cette déclaration. Je comprends votre point cependant, je vais envisager de le supprimer / reformuler si d’autres pensent que ce n’est pas clair.
Tony Breyal

15
Une grande partie du domaine des statistiques robustes est une tentative pour traiter la sensibilité excessive aux valeurs aberrantes qui est une conséquence du choix de la variance comme mesure de la diffusion des données (échelle technique ou dispersion). fr.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
L'article lié à la réponse est un envoi divin.
traggatmot

1
Je pense que le paragraphe sur Pythagore est parfait. Vous pouvez considérer l'erreur comme un vecteur à dimensions, étant le nombre d'échantillons. La taille dans chaque dimension est la différence avec la moyenne de cet échantillon. La longueur de ce vecteur (Pythagore) est la racine de la somme des carrés, c'est-à-dire l'écart-type. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

La différence au carré a de plus jolies propriétés mathématiques; il est continuellement différentiable (bien quand on veut le minimiser), c'est une statistique suffisante pour la distribution gaussienne, et c'est (une version de) la norme L2 qui est utile pour prouver la convergence, etc.

L’écart absolu moyen (la notation de valeur absolue que vous suggérez) sert également à mesurer la dispersion, mais il n’est pas aussi "sage" que l’erreur au carré.


2
dit "c'est continuellement différentiable (bien quand on veut le minimiser)" voulez-vous dire que la valeur absolue est difficile à optimiser?
robin girard

29
@robin: alors que la fonction de valeur absolue est continue partout, sa première dérivée ne l'est pas (à x = 0). Cela rend l’optimisation analytique plus difficile.
Vince

12
Oui, mais il est plus facile de trouver le nombre que vous voulez, plutôt que simplement un descripteur, en cas de perte d'erreur au carré. Considérons le cas 1 dimension; vous pouvez exprimer le minimiseur de l'erreur au carré par la moyenne: opérations O (n) et forme fermée. Vous pouvez exprimer la valeur du minimiseur d'erreurs absolues par la médiane, mais aucune solution sous forme fermée ne vous indique quelle est la valeur médiane. il faut trouver une sorte de recherche qui ressemble à O (n log n). Les solutions des moindres carrés tendent à être une simple opération de type plug-and-chug, les solutions à valeur absolue nécessitent généralement plus de travail.
Rich

5
@Rich: La variance et la médiane peuvent être trouvées en temps linéaire, et bien sûr pas plus vite. La médiane ne nécessite pas de tri.
Neil G


84

Une façon de penser à cela est que l’écart-type est similaire à une "distance par rapport à la moyenne".

Comparez cela à des distances dans un espace euclidien - ceci vous donne la vraie distance, où ce que vous avez suggéré (qui, en fait, est la déviation absolue ) ressemble plus à un calcul de distance manhattan .


17
Belle analogie de l'espace euclidien!
c4il

2
Sauf que dans une dimension, les et sont la même chose, n'est-ce pas? l 2l1l2
naught101

5
@ naught101: Ce n'est pas une dimension, mais plutôt dimensions où est le nombre d'échantillons. L’écart type et l’écart absolu sont respectivement les distances et respectivement (à l’échelle) entre les deux points et où est le signifier. nl 2 l 1 ( x 1 , x 2 , , x n ) ( μ , μ , , μ ) μnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
Cela devrait être modifié comme distance minimale de la moyenne. C'est essentiellement une équation de Pythagore.
Jean

56

La raison pour laquelle nous calculons l'écart type au lieu de l'erreur absolue est que nous supposons que l'erreur est normalement distribuée . Cela fait partie du modèle.

Supposons que vous mesuriez de très petites longueurs avec une règle, alors l’écart-type est une mauvaise mesure de l’erreur car vous savez que vous ne mesurerez jamais accidentellement une longueur négative. Une meilleure métrique aiderait à adapter une distribution gamma à vos mesures:

log(E(x))E(log(x))

Comme l’écart-type, c’est aussi un non négatif et différentiable, mais c’est une meilleure statistique d’erreur pour ce problème.


3
J'aime ta réponse. Le SD n'est pas toujours la meilleure statistique.
RockScience

2
Excellent contre-exemple pour savoir quand l’écart type n’est pas la meilleure façon de penser aux tailles de fluctuation.
Hbar

Ne devriez-vous pas avoir un signe opposé sur la quantité pour obtenir une mesure positive - en utilisant un convexe au lieu de concave ? log xlogxlogx
AS

@AS Non, c'est déjà toujours positif. Il est égal à zéro lorsque tous les échantillons sont égaux. Sinon, son amplitude mesure la variation. x
Neil G

Tu te trompes. pour concave . gE(g(X))g(E(X))g
AS

25

La réponse qui m’a le mieux satisfait est qu’elle découle naturellement de la généralisation d’un échantillon dans l’espace euclidien à n dimensions. On peut certainement se demander si cela devrait être fait, mais dans tous les cas:

Supposons que vos mesures sont chacune un axe de . Ensuite, vos données définissent un point dans cet espace. Vous remarquerez peut-être que les données sont toutes très similaires, vous pouvez donc les représenter avec un seul paramètre d'emplacement contraint de se trouver sur la ligne définie par . Si vous projetez votre point de donnée sur cette ligne, vous obtenez , et la distance entre le point projeté et le point de donnée actuel est.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Cette approche vous donne également une interprétation géométrique pour la corrélation, .ρ^=cos(x~,y~)


7
C'est correct et attrayant. Cependant, à la fin, il semble simplement reformuler la question sans y répondre réellement: à savoir, pourquoi devrions-nous utiliser la distance euclidienne (L2)?
whuber

20
@sesqu Les écarts-types ne sont pas devenus monnaie courante avant que Gauss, en 1809, ne tire son déviation du même nom en utilisant l’erreur quadratique plutôt que l’erreur absolue comme point de départ. Cependant, ce qui les a poussés au-dessus (je crois), c’est la théorie de la régression de Galton (à laquelle vous faites allusion) et la capacité de l’ANOVA de décomposer des sommes de carrés - ce qui revient à reformuler le théorème de Pythagore, une relation dont ne jouissent que les Norme L2. Ainsi, le DD est devenu une mesure naturelle de propagation préconisée dans "Les méthodes statistiques pour les chercheurs" de Fisher en 1925 et nous en sommes là, 85 ans plus tard.
whuber

13
(+1) En continuant dans la veine de @ whuber, je parierais que Student avait publié un article en 1908 intitulé "Erreur probable de la moyenne - Hé, les gars, vérifiez ce MAE dans le dénominateur!" alors les statistiques auraient un tout autre visage maintenant. Bien sûr, il n'a pas publié un article comme celui-là, et il ne pouvait évidemment pas le faire, car le MAE ne dispose pas de toutes les propriétés intéressantes de S ^ 2. L’un d’eux (lié à Student) est son indépendance par rapport à la moyenne (dans le cas normal), ce qui bien sûr est une reformulation de l’orthogonalité, ce qui nous ramène directement à L2 et au produit intérieur.

3
Cette réponse a été une source de réflexion et je pense que ma manière préférée de la voir. En 1-D, il est difficile de comprendre pourquoi la différence est considérée comme meilleure. Mais dans plusieurs dimensions (ou même juste 2), on peut facilement voir que la distance euclidienne (au carré) est préférable à la distance de Manhattan (somme de la valeur absolue des différences).
thecity2

1
@whuber Pouvez-vous s'il vous plaît expliquer ce que "la ligne définie par Xᵢ = μ" signifie? Est-ce la ligne passant par l'origine et le point (μ, μ, ..., μ)? Aussi, où puis-je en savoir plus à ce sujet?
Arch Stanton

18

La différence entre la moyenne et la moyenne a plusieurs raisons.

  • La variance est définie comme le 2ème moment de la déviation (le RV ici est ) et donc le carré comme moments sont simplement les attentes de puissances supérieures de la variable aléatoire.(xμ)

  • Avoir un carré par opposition à la fonction de valeur absolue donne une belle fonction continue et différentiable (la valeur absolue n'est pas différentiable à 0) - ce qui en fait un choix naturel, en particulier dans le contexte de l'estimation et de l'analyse de régression.

  • La formulation au carré tombe également naturellement en dehors des paramètres de la distribution normale.


17

Encore une autre raison (en plus des excellentes ci-dessus) vient de Fisher lui-même, qui a montré que l'écart type est plus "efficace" que l'écart absolu. Ici, l'efficacité dépend de la fluctuation de la valeur d'une statistique sur différents échantillons d'une population. Si votre population est normalement distribuée, l'écart-type de différents échantillons de cette population tendra en moyenne à vous donner des valeurs assez similaires les unes aux autres, alors que l'écart absolu vous donnera des nombres plus dispersés. Évidemment, c’est évidemment dans des circonstances idéales, mais cette raison a convaincu beaucoup de gens (les maths étant plus propres), de sorte que la plupart des gens travaillaient avec des écarts-types.


6
Votre argument dépend des données normalement distribuées. Si nous supposons que la population a une distribution "double exponentielle", alors la déviation absolue est plus efficace (en fait, c'est une statistique suffisante pour l'échelle)
probabiliste

7
Oui, comme je l'ai dit, "si votre population est normalement répartie".
Eric Suh

En outre, en supposant une distribution normale, Fisher proof suppose des mesures sans erreur. Avec de petites erreurs comme 1%, la situation s'inverse et l'écart absolu moyen est plus efficace que l'écart type
juanrga

14

Pour que les gens sachent, il y a une question Math Overflow sur le même sujet.

Pourquoi-est-ce-que-si-cool-à-carrés-nombres-en-recherche-de-la-déviation standard

Le message à retenir est que l’utilisation de la racine carrée de la variance facilite les calculs. Une réponse similaire est donnée par Rich et Reed ci-dessus.


3
«Des mathématiques plus faciles» n'est pas une exigence essentielle lorsque nous voulons que nos formules et nos valeurs reflètent plus fidèlement un ensemble de données donné. Les ordinateurs font tout le travail difficile quand même.
Dan W

Définir pi en tant que 3.14 facilite les maths, mais cela ne règle pas le problème.
James

13

variances sont additives: pour les variables aléatoires indépendantes , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Remarquez ce que cela rend possible: dites que je lance une bonne pièce 900 fois. Quelle est la probabilité que le nombre de têtes que je reçois se situe entre 440 et 455 inclus? Il suffit de trouver le nombre attendu de têtes ( ) et la variance du nombre de têtes ( ), puis de rechercher la probabilité avec une distribution normale (ou gaussienne) avec l'espérance et l'écart type compris entre et . Abraham de Moivre l'a fait avec des lancers de pièces au 18ème siècle, montrant ainsi que la courbe en forme de cloche vaut quelque chose.450225=15245015439.5455.5


Les écarts absolus moyens ne sont-ils pas additifs de la même manière que les variances?
russellpierce

6
Non, ils ne sont pas.
Michael Hardy

10

Je pense que le contraste entre l’utilisation des déviations absolues et des déviations au carré devient plus clair une fois que l’on dépasse une variable et que l’on réfléchit à la régression linéaire. Il y a une bonne discussion sur http://en.wikipedia.org/wiki/Least_absolute_deviations , en particulier la section "Contraste des moindres carrés avec des déviations les moins absolues", qui renvoie à des exercices pour les étudiants avec un jeu d'applets à l' adresse http: // www. .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Pour résumer, les déviations moindres absolues sont plus robustes pour les valeurs aberrantes que les moindres carrés ordinaires, mais elles peuvent être instables (le moindre changement dans une donnée peut donner de gros changements dans la ligne ajustée) et n'a pas toujours une solution unique - il peut y avoir toute une gamme de lignes aménagées. Les déviations les moins absolues requièrent également des méthodes itératives, tandis que les moindres carrés ordinaires proposent une solution simple, mais ce n'est pas un si gros problème maintenant comme c'était le cas à l'époque de Gauss et Legendre, bien sûr.


l'argument de "solution unique" est assez faible, cela signifie vraiment qu'il y a plus d'une valeur bien supportée par les données. De plus, une pénalisation des coefficients, telle que L2, résoudra également le problème de l'unicité et le problème de la stabilité.
probabilitéislogique

10

Il y a plusieurs raisons; probablement le principal est que cela fonctionne bien comme paramètre de la distribution normale.


4
Je suis d'accord. L’écart type est le bon moyen de mesurer la dispersion si vous supposez une distribution normale. Et beaucoup de distributions et de données réelles sont à peu près normales.
Łukasz Lew

2
Je ne pense pas que vous devriez dire "paramètre naturel": les paramètres naturels de la distribution normale sont la précision des moyennes et des temps moyens. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG Bon point; Je pensais à "occasionnel" qui signifie ici. Je penserai à un meilleur mot.

8

À bien des égards, l’utilisation de l’écart type pour résumer la dispersion nous amène à une conclusion. On pourrait dire que SD suppose implicitement une distribution symétrique en raison de son traitement égal de la distance inférieure à la moyenne de la distance supérieure à la moyenne. Le DS est étonnamment difficile à interpréter pour les non-statisticiens. On pourrait soutenir que la différence moyenne de Gini a une application plus large et est beaucoup plus interprétable. Il n’est pas nécessaire de déclarer son choix d’une mesure de la tendance centrale comme le fait l’utilisation du développement durable pour la moyenne. La différence moyenne de Gini est la différence absolue moyenne entre deux observations différentes quelconques. En plus d'être robuste et facile à interpréter, il est aussi efficace que SD de 0,98 si la distribution était réellement gaussienne.


2
Pour ajouter à la suggestion de @ Frank sur Gini, il existe un article intéressant: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Il passe en revue diverses mesures de dispersion et donne également une perspective historique informative.
Thomas Speidel

1
J'aime aussi ces idées, mais il existe une définition parallèle moins bien connue de la variance (et donc de la SD) qui ne fait aucune référence aux moyens en tant que paramètres de localisation. La variance est égale à la moitié du carré moyen de toutes les différences paires de valeurs, tout comme la différence moyenne de Gini est basée sur les valeurs absolues de toutes les différences paire.
Nick Cox

7

L'estimation de l'écart type d'une distribution nécessite de choisir une distance.
N'importe laquelle des distances suivantes peut être utilisée:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Nous utilisons habituellement la distance euclidienne naturelle ( ), celle que tout le monde utilise dans la vie quotidienne. La distance que vous proposez est celle avec . Les deux sont de bons candidats mais ils sont différents.n=2n=1

On pourrait aussi utiliser .n=3

Je ne suis pas sûr que vous aimerez ma réponse, mon propos, contrairement à d'autres, n'est pas de démontrer que est meilleur. Je pense que si vous voulez estimer l'écart type d'une distribution, vous pouvez absolument utiliser une distance différente.n=2


6

Cela dépend de ce dont vous parlez lorsque vous dites "diffusion des données". Pour moi, cela pourrait signifier deux choses:

  1. La largeur d'une distribution d'échantillonnage
  2. La précision d'une estimation donnée

Pour le point 1), il n'y a pas de raison particulière d'utiliser l'écart type comme mesure de la dispersion, sauf lorsque la distribution d'échantillonnage est normale. La mesure est une mesure plus appropriée dans le cas d'une distribution d'échantillonnage de Laplace . Je suppose que l'écart-type est utilisé ici à cause de l'intuition reportée du point 2). Probablement aussi à cause du succès de la modélisation des moindres carrés en général, pour laquelle l’écart type est la mesure appropriée. Probablement aussi parce que calculer est généralement plus facile que calculer pour la plupart des distributions.E(|Xμ|)E(X2)E(|X|)

Maintenant, pour le point 2), il existe une très bonne raison d’utiliser la variance / écart type comme mesure de la dispersion, dans un cas particulier mais très courant. Vous pouvez le voir dans l'approximation de Laplace à postérieur. Avec les données et les informations antérieures , écrivez la partie postérieure d'un paramètre sous la forme:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

J'ai utilisé comme variable muette pour indiquer que le dénominateur ne dépend pas de . Si le postérieur a un maximum unique bien arrondi (c'est-à-dire pas trop près d'une "limite"), nous pouvons augmenter la probabilité de log sur son maximum . Si nous prenons les deux premiers termes de l’agrandissement du taylor, nous obtenons (en utilisant prime pour la différenciation):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Mais nous avons ici que parce que est un "bien arrondi", , nous avons donc:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Si on branche cette approximation on obtient:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Laquelle, sauf que la notation est une distribution normale, avec une moyenne égale à , et une variance égale àE(θDI)θmax

V(θDI)[h(θmax)]1

( est toujours positif car nous avons un maximum bien arrondi). Cela signifie donc que dans les "problèmes réguliers" (ce qui est la plupart d'entre eux), la variance est la quantité fondamentale qui détermine l'exactitude des estimations pour . Ainsi, pour les estimations basées sur une grande quantité de données, l’écart type a beaucoup de sens en théorie - il indique en gros tout ce que vous devez savoir. Le même argument s’applique (avec les mêmes conditions) dans les cas multidimensionnels avec étant une matrice de Hesse. Les entrées diagonales sont aussi essentiellement des variations ici aussi.h(θmax)θh(θ)jk=h(θ)θjθk

Le fréquentiste qui utilise la méthode du maximum de vraisemblance aboutira essentiellement à la même conclusion car le MLE tend à être une combinaison pondérée des données et, pour les grands échantillons, le théorème de la limite centrale s'applique et vous obtenez essentiellement le même résultat si nous prenons mais avec et interchangés: (voyez si vous pouvez deviner quel paradigme je préfère: P). Dans les deux cas, l’écart type est donc une mesure théorique importante de la dispersion.p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"Pourquoi faire la différence" au lieu de "prendre une valeur absolue"? Pour répondre de manière très précise, il existe une littérature qui donne les raisons pour lesquelles elle a été adoptée et les raisons pour lesquelles la plupart de ces raisons ne tiennent pas. "Ne pouvons-nous pas simplement prendre la valeur absolue ...?". Je suis au courant de la littérature dans laquelle la réponse est oui, c'est en train de se faire et cela est considéré comme étant avantageux.

L'auteur Gorard déclare, tout d'abord, que l'utilisation de carrés a été précédemment adoptée pour des raisons de simplicité de calcul, mais que ces raisons initiales ne tiennent plus. Gorard déclare, en second lieu, que la méthode MLS a été adoptée parce que Fisher a constaté que les résultats d'échantillons d'analyses utilisant la méthode MLS présentaient des écarts plus faibles que ceux qui utilisaient des différences absolues (approximativement). Ainsi, il semblerait que l’OLS puisse présenter des avantages dans certaines circonstances idéales; Cependant, Gorard note qu'il existe un certain consensus (et il affirme que Fisher est d'accord) que dans des conditions réelles (mesures imparfaites d'observations, distributions non uniformes, études d'une population sans inférence à partir d'un échantillon), l'utilisation de carrés est pire que différences absolues.

Réponse de Gorard à votre question "Ne pouvons-nous pas simplement prendre la valeur absolue de la différence et obtenir la valeur attendue (moyenne) de ceux-ci?" est oui. Un autre avantage est que l’utilisation des différences produit des mesures (mesures des erreurs et des variations) liées à la façon dont nous percevons ces idées dans la vie. Gorard dit: imaginez des personnes partageant la facture du restaurant de manière égale et certains pourraient intuitivement remarquer que cette méthode est injuste. Personne ne commettra les erreurs; les différences sont le point.

Enfin, en utilisant des différences absolues, note-t-il, chaque observation est traitée de la même manière, alors que la différence de pondération donne aux observations prédites un poids légèrement supérieur à celui des observations, ce qui revient à permettre à certaines observations d'être incluses plusieurs fois dans l'étude. En résumé, son idée générale est qu’il n’ya pas beaucoup de raisons gagnantes d’utiliser des carrés et que, au contraire, l’utilisation de différences absolues présente des avantages.

Références:


1
Merci @Jen, cela me rappelle l'historique du clavier QWERTY. Hey, comment se fait-il que cela prenne si longtemps de taper QWERTY?
toto_tico

5

Parce que les carrés peuvent permettre l'utilisation de nombreuses autres opérations ou fonctions mathématiques plus facilement que les valeurs absolues.

Exemple: des carrés peuvent être intégrés, différenciés, utilisés dans des fonctions trigonométriques, logarithmiques et autres, en toute simplicité.


2
Je me demande s'il y a une profusion auto-réalisatrice ici. Nous obtenons
probabilitéislogic

5

Lors de l'ajout de variables aléatoires, leurs variances s'ajoutent pour toutes les distributions. La variance (et donc l’écart type) est une mesure utile pour presque toutes les distributions et n’est en aucun cas limitée aux distributions gaussiennes (ou "normales"). Cela favorise son utilisation comme mesure d'erreur. L’absence d’unicité est un problème grave, avec des différences absolues, car il existe souvent un nombre infini de "crises" à mesures égales, et pourtant, la "solution intermédiaire" est favorisée de la manière la plus réaliste. De plus, même avec les ordinateurs actuels, l'efficacité du calcul est importante. Je travaille avec de grands ensembles de données et le temps de calcul est important. Cependant, il n’existe pas de «meilleure» mesure absolue absolue des résidus, comme le soulignent certaines réponses précédentes. Des circonstances différentes appellent parfois des mesures différentes.


2
Je ne suis toujours pas convaincu que les variances soient très utiles pour les distributions asymétriques.
Frank Harrell

Qu'en est-il d'une paire de "semi-variances", l'une à la hausse, l'autre à la baisse?
kjetil b halvorsen

3

Naturellement, vous pouvez décrire la dispersion d'une distribution de manière significative (déviation absolue, quantiles, etc.).

Un fait intéressant est que la variance est le deuxième moment central et que chaque distribution est décrite de manière unique par ses moments, s'ils existent. Un autre fait intéressant est que la variance est beaucoup plus facile à calculer mathématiquement que toute métrique comparable. Un autre fait est que la variance est l'un des deux paramètres de la distribution normale pour la paramétrisation habituelle et que la distribution normale n'a que 2 moments centraux non nuls qui sont ces deux paramètres mêmes. Même pour des distributions non normales, il peut être utile de penser dans un cadre normal.

Selon moi, l'écart-type existe en tant que tel parce que, dans les applications, la racine carrée de la variance apparaît régulièrement (par exemple pour normaliser un varianble aléatoire), ce qui nécessitait un nom.


1
Si je me souviens bien, la distribution log-normale n'est-elle pas uniquement définie par ses moments.
probabilityislogic

1
@probabilityislogic, en effet, c'est vrai, voir en.wikipedia.org/wiki/Log-normal_distribution dans la section "Fonction caractéristique et fonction générant le moment".
kjetil b halvorsen

1

Une approche différente et peut-être plus intuitive consiste à prendre en considération la régression linéaire par rapport à la régression médiane.

Supposons que notre modèle est que . Ensuite, nous trouvons b en minimisant le résidu carré attendu, .E(y|x)=xββ=argminbE(yxb)2

Si au lieu de cela notre modèle est que la médiane , alors nous trouvons nos estimations de paramètres en minimisant les résidus absolus ,.(y|x)=xββ=argminbE|yxb|

En d'autres termes, l'utilisation d'erreur absolue ou carrée dépend de la modélisation de la valeur attendue ou de la valeur médiane.

Si la distribution, par exemple, affiche une hétéroscédasticité asymétrique, il existe une grande différence entre la façon dont la pente de la valeur attendue de change sur et celle de la valeur médiane de .yxy

Koenker et Hallock ont ​​un bel article sur la régression quantile, où la régression médiane est un cas particulier: http://master272.com/finance/QR/QRJEP.pdf .


0

Mon hypothèse est la suivante: la plupart des populations (distributions) ont tendance à se rassembler autour de la moyenne. Plus une valeur est éloignée de la moyenne, plus elle est rare. Afin d'exprimer de manière adéquate à quel point une valeur est "hors ligne", il est nécessaire de prendre en compte à la fois sa distance par rapport à la moyenne et son degré d'occurrence (normalement parlant). Cela correspond à la quadrature de la moyenne par rapport aux valeurs qui présentent des écarts plus faibles. Une fois que toutes les variances ont été moyennées, il est correct de prendre la racine carrée, qui ramène les unités à leurs dimensions d'origine.


2
Cela n'explique pas pourquoi vous ne pouvez pas simplement prendre la valeur absolue de la différence. Cela semble conceptuellement plus simple pour la plupart des étudiants en statistiques, et il «prendrait en compte à la fois sa distance par rapport à la moyenne et sa rareté (d’habitude)».
gung

Je pense que la valeur absolue de la différence ne ferait qu'exprimer la différence par rapport à la moyenne et ne tiendrait pas compte du fait que des différences importantes nuisent doublement à une distribution normale.
Samuel Berry

2
Pourquoi le "double perturbateur" est-il important et non pas, disons, "triple-perturbateur" ou "quadruple perturbateur"? Il semble que cette réponse remplace simplement la question initiale par une question équivalente.
whuber

0

La quadrature amplifie les écarts plus importants.

Si votre échantillon contient des valeurs sur tout le graphique, pour que les 68,2% se situent dans le premier écart-type, votre écart-type doit être un peu plus large. Si toutes vos données ont tendance à tomber autour de la moyenne, alors σ peut être plus étroit.

Certains disent que c'est pour simplifier les calculs. L'utilisation de la racine carrée positive du carré aurait résolu ce problème afin que l'argument ne flotte pas.

|x|=x2

Donc, si la simplicité algébrique était le but recherché, alors il aurait ressemblé à ceci:

σ=E[(xμ)2] qui donne les mêmes résultats que .E[|xμ|]

De toute évidence, cette quadrature a également pour effet d’amplifier les erreurs aberrantes (doh!).


En me basant sur un drapeau que je viens de traiter, je soupçonne que le votant inférieur n'a pas complètement compris comment cette réponse répond à la question. Je crois que je vois le lien (mais vous pouvez néanmoins envisager de faire quelques modifications pour aider les autres lecteurs à mieux apprécier vos points). Cependant, votre premier paragraphe me semble être un argument plutôt circulaire: la valeur de 68,2% est dérivée des propriétés de l'écart type. Comment invoquer ce nombre peut-il alors justifier l'utilisation de la SD au lieu d'une autre norme d'écarts de la moyenne comme moyen de quantifier l'étendue d'une distribution? Lp
whuber

Le premier paragraphe était la raison de mon vote négatif.
Alexis

3
@Preston Thayne: Comme l'écart type n'est pas la valeur attendue sqrt((x-mu)^2), votre formule est trompeuse. De plus, ce n'est pas parce que la quadrature a pour effet d'amplifier des écarts plus importants que c'est la raison pour laquelle on préfère la variance par rapport au MAD . Au contraire, c'est une propriété neutre, car nous voulons souvent quelque chose de plus robuste que le MAD . Enfin, le fait que la variance soit mathématiquement plus traitable que le MAD est un problème mathématique beaucoup plus profond que celui que vous avez exposé dans cet article.
Steve S

0

Pourquoi égaliser la différence au lieu de prendre la valeur absolue en écart type?

Nous comparons la différence des x à la moyenne car la distance euclidienne, proportionnelle à la racine carrée des degrés de liberté (nombre de x, dans une mesure de population), est la meilleure mesure de dispersion.

Calculer la distance

Quelle est la distance entre le point 0 et le point 5?

  • 50=5 ,
  • |05|=5 et
  • 52=5

Ok, c'est trivial parce que c'est une seule dimension.

Que diriez-vous de la distance pour un point au point 0, 0 au point 3, 4?

Si nous ne pouvons aller que dans une dimension à la fois (comme dans les quartiers), nous additionnons simplement les nombres. (Ceci est parfois appelé distance de Manhattan).

Mais qu'en est-il d'aller dans deux dimensions à la fois? Puis (d'après le théorème de Pythagore que nous avons tous appris au lycée), nous quadrillons la distance dans chaque dimension, additionnons les carrés, puis prenons la racine carrée pour trouver la distance entre l'origine et le point.

32+42=25=5

Que diriez-vous de la distance d'un point à 0, 0, 0 au point 1, 2, 2?

C'est juste

12+22+22=9=3

parce que la distance pour les deux premiers x constitue la jambe pour calculer la distance totale avec le x final.

x12+x222+x32=x12+x22+x32

Nous pouvons continuer à étendre la règle du carré de la distance de chaque dimension, ce qui se généralise à ce que nous appelons une distance euclidienne, pour les mesures orthogonales dans un espace hyperdimensionnel, comme suit:

distance=i=1nxi2

et donc la somme des carrés orthogonaux est la distance au carré:

distance2=i=1nxi2

Qu'est-ce qui fait qu'une mesure est orthogonale (ou à angle droit) par rapport à une autre? La condition est qu’il n’y ait pas de relation entre les deux mesures. Nous chercherions à ce que ces mesures soient indépendantes et distribuées individuellement ( iid ).

Variance

Rappelons maintenant la formule de la variance de population (à partir de laquelle nous obtiendrons l’écart-type):

σ2=i=1n(xiμ)2n

Si nous avons déjà centré les données à 0 en soustrayant la moyenne, nous avons:

σ2=i=1n(xi)2n

Nous voyons donc que la variance est simplement la distance au carré divisée par le nombre de degrés de liberté (le nombre de dimensions sur lesquelles les variables sont libres de varier). C'est également la contribution moyenne à la par mesure. "Variance quadratique moyenne" serait également un terme approprié.distance2

Écart-type

Ensuite, nous avons l’écart type, qui n’est que la racine carrée de la variance:

σ=i=1n(xiμ)2n

Qui est équivalent, la distance , divisée par la racine carrée des degrés de liberté:

σ=i=1n(xi)2n

Signifie une déviation absolue

La déviation absolue moyenne (MAD) est une mesure de la dispersion qui utilise la distance de Manhattan, ou la somme des valeurs absolues des différences par rapport à la moyenne.

MAD=i=1n|xiμ|n

Là encore, en supposant que les données soient centrées (la moyenne soustraite), la distance de Manhattan est divisée par le nombre de mesures:

MAD=i=1n|xi|n

Discussion

  • L’écart absolu moyen est environ 0,8 fois (en réalité2/π ) la taille de l’écart-type d’un jeu de données normalement distribué.
  • Quelle que soit la distribution, l'écart absolu moyen est inférieur ou égal à l'écart type. MAD minimise la dispersion d'un ensemble de données avec des valeurs extrêmes, par rapport à l'écart type.
  • L’écart absolu moyen est plus robuste pour les valeurs aberrantes (c’est-à-dire que les valeurs aberrantes n’ont pas autant d’effet sur les statistiques que sur l’écart type.
  • Géométriquement, si les mesures ne sont pas orthogonales les unes aux autres (iid) - par exemple, si elles étaient corrélées positivement, l’écart absolu moyen serait une meilleure statistique descriptive que l’écart type, qui repose sur la distance euclidienne (bien que cet écart soit généralement considéré comme fin). ).

Ce tableau reflète les informations ci-dessus de manière plus concise:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Commentaires:

Avez-vous une référence pour «l’écart absolu moyen est environ 0,8 fois la taille de l’écart-type d’un ensemble de données normalement distribué»? Les simulations en cours montrent que cela est inexact.

Voici 10 simulations d’un million d’échantillons de la distribution normale standard:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Conclusion

Nous préférons les différences au carré lorsque nous calculons une mesure de dispersion, car nous pouvons exploiter la distance euclidienne, ce qui nous donne une meilleure statistique descriptive de la dispersion. Lorsqu'il y a des valeurs plus relativement extrêmes, la distance euclidienne est prise en compte dans la statistique, tandis que la distance de Manhattan donne un poids égal à chaque mesure.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.