Explication intuitive de la division par


136

On m'a demandé aujourd'hui en classe pourquoi on divisait la somme de l'erreur carrée par au lieu de , lors du calcul de l'écart type.nn1n

J'ai dit que je ne vais pas y répondre en classe (étant donné que je ne voulais pas utiliser d'estimateurs non biaisés), mais plus tard, je me suis demandé - existe-t-il une explication intuitive à cela?!


29
Je voudrais citer ce livre du livre Numerical Recipes : "... si la différence entre et vous importe, alors vous n’aurez probablement aucun intérêt, de toute façon - par exemple, vous essayez de justifier une hypothèse douteuse avec des données marginales ". n - 1nn1
JM n'est pas un statisticien

11
Une explication très élégante et intuitive est présentée ici (sous la preuve) en.wikipedia.org/wiki/. L'idée de base est que vos observations sont, bien entendu, plus proches de la moyenne de l'échantillon que de la moyenne de la population.
WetlabStudent

12
@Tal, c'est pourquoi les écoles sont nulles. Vous leur demandez "pourquoi cela ?", Et ils répondent "juste le mémoriser".
Pacerier

1
Si vous recherchez une explication intuitive, vous devriez en comprendre la raison en prélevant des échantillons! Regardez ceci, il répond précisément à votre question. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary le

tl; dr: (de la réponse du haut :) "... l'écart type calculé à l'aide des écarts par rapport à la moyenne de l'échantillon sous-estime l'écart type souhaité de la population ..." Voir aussi: en.wikipedia.org/wiki/… Donc, à moins que vous ne souhaitiez calculer quelque chose de complexe, utilisez simplement n-1 s'il s'agit d'un échantillon.
Andrew

Réponses:


99

L'écart-type calculé avec un diviseur est un écart-type calculé à partir de l'échantillon en tant qu'estimation de l'écart-type de la population à partir de laquelle l'échantillon a été tiré. Comme les valeurs observées tombent en moyenne plus près de la moyenne de l'échantillon que de la moyenne de la population, l'écart-type calculé à l'aide des écarts par rapport à la moyenne de l'échantillon sous-estime l'écart-type souhaité de la population. Utiliser au lieu de comme diviseur corrige cela en rendant le résultat un peu plus grand.n - 1 nn1n1n

Notez que la correction a un effet proportionnel plus important lorsque est petit que quand il est grand, ce que nous souhaitons car, lorsque n est plus grand, la moyenne de l’échantillon sera probablement un bon estimateur de la moyenne de la population.n

Lorsque l'échantillon est constitué de la population entière, nous utilisons l'écart type avec comme diviseur, car la moyenne de l'échantillon est la moyenne de la population.n

(Je remarque entre parenthèses que rien qui commence par "deuxième moment recensé autour d'un moyen défini et connu" ne répondra à la demande d'explication intuitive du questionneur.)


13
Ne confondons pas "intuitif" avec "non technique".
whuber

32
@ Michael, Cela n'explique pas Pourquoi utilisons-nous à la n−1place de n−2(ou même n−3)?
Pacerier

1
@Pacerier Consultez la réponse de Whuber ci-dessous pour plus de détails à ce sujet. Essentiellement, la correction est n-1 plutôt que n-2, etc. car la correction n-1 donne des résultats très proches de ce dont nous avons besoin. Des corrections plus exactes sont indiquées ici: en.wikipedia.org/wiki/Unbaced_estimation_of_standard_deviation
Michael Lew

1
Bonjour @Michael, pourquoi donc l'écart calculé à partir de la moyenne de l'échantillon a tendance à être inférieur à la moyenne de la population?
Allen

1
"Comme les valeurs observées sont en moyenne plus proches de la moyenne de l'échantillon que de la moyenne de la population, l'écart-type calculé à l'aide des écarts par rapport à la moyenne de l'échantillon sous-estime l'écart-type souhaité de la population." Pourquoi l'échantillon signifie-t-il toujours sous-estimer? Et si cela surestime?
Bora M. Alper

55

Un cas courant est que la définition de la variance (d'une distribution) est le deuxième moment recensé autour d'une moyenne définie connue , alors que l'estimateur utilise une moyenne estimée . Cette perte de degré de liberté (compte tenu de la moyenne, vous pouvez reconstituer le jeu de données en sachant que des valeurs de données) nécessite l’utilisation de n - 1 plutôt que n pour "ajuster" le résultat.n1n1n

Une telle explication est cohérente avec les variances estimées dans l'analyse de la variance et l'analyse des composantes de la variance. C'est vraiment juste un cas spécial.

Je pense que la nécessité de procéder à un ajustement qui gonfle la variance peut être clarifiée intuitivement avec un argument valable qui ne consiste pas seulement à agiter la main a posteriori . (Je me souviens que Student avait peut-être avancé un tel argument dans son article de 1908 sur le test t.) Pourquoi l'ajustement de la variance doit-il être exactement un facteur de est-il plus difficile à justifier, en particulier lorsque vous considérez que le SD ajusté n'est pasn/(n1)un estimateur non biaisé. (Il s'agit simplement de la racine carrée d'un estimateur non biaisé de la variance. Être non biaisé ne survit généralement pas à une transformation non linéaire.) Donc, en fait, le bon ajustement du DS pour éliminer son biais n'est pas un facteur de du tout!n/(n1)

Certains manuels d'initiation ne se donnent même pas la peine d'introduire le sd ajusté: ils enseignent une formule (diviser par ). J'ai d'abord réagi négativement à cela lorsque j'enseignais à partir d'un tel livre, mais j'ai appris à mieux comprendre la sagesse: pour se concentrer sur les concepts et les applications, les auteurs retirent toutes les subtilités mathématiques essentielles. Il s'avère que rien n'est blessé et que personne n'est induit en erreur.n


1
Merci Whuber. Je dois enseigner aux étudiants avec la correction n-1, donc diviser n seul n'est pas une option. Comme cela a été écrit avant moi, mentionner la connexion au deuxième moment n’est pas une option. Bien que mentionner la manière dont la moyenne a déjà été estimée nous laisse moins de "données" pour le SD - c'est important. En ce qui concerne le parti pris du SD - je me suis souvenu de l'avoir rencontré -, merci d'avoir conduit ce point à la maison. Cordialement, Tal
Tal Galili

3
@Tal J'écrivais dans votre langue et non dans celle de vos étudiants, car je suis convaincu que vous êtes parfaitement capable de le traduire dans tout ce que vous savez qui leur parviendra. En d’autres termes, j’ai interprété «intuitif» dans votre question comme signifiant intuitif pour vous .
whuber

1
Salut Whuber. Merci pour le vote de confiance :). Le relâchement du degré de liberté pour l'estimation de l'espérance est celui que je pensais utiliser en classe. Le problème est que le concept de "degrés de liberté" est en soi un concept qui nécessite connaissance / intuition. Mais le combiner avec certaines des autres réponses données dans ce fil me sera utile (pour moi, et j'espère pour d'autres à l'avenir). Cordialement, Tal
Tal Galili

Pour les grands , il n'y a généralement pas beaucoup de différence entre diviser par n ou n - 1 , il serait donc acceptable d'introduire la formule non corrigée à condition qu'elle soit destinée à s'appliquer à de grands échantillons, non? nnn1
PatrickT

1
@Patrick Vous pourriez être trop lire dans ma réponse, car il est explicite sur les raisons: ils sont pédagogiques et n'a rien à voir avec le fait que est grande ou non. n
whuber

50

Par définition, la variance est calculée en prenant la somme des différences au carré de la moyenne et en la divisant par la taille. Nous avons la formule générale

μest la moyenne etNla taille de la population.σ2=iN(Xiμ)2NμN

Selon cette définition, la variance d'un échantillon (par exemple, l'échantillon ) doit également être calculée de cette manière.t

¯ X est la moyenne etnla taille de ce petit échantillon.σt2=in(XiX¯)2nX¯n

Cependant, par variance d'échantillon , nous entendons un estimateur de la variance de population σ 2 . Comment pouvons-nous estimer σ 2 uniquement en utilisant les valeurs de l'échantillon?S2σ2σ2

Selon les formules ci-dessus, la variable aléatoire s'écarte de la moyenne de l'échantillon ¯ X avec la variance σ 2 t . La moyenne de l'échantillon ¯ X s'écarte également de µ avec la variance σ 2XX¯σt2X¯μ parce que la moyenne de l'échantillon obtient des valeurs différentes d'un échantillon à l'autre et qu'il s'agit d'une variable aléatoire avec la moyenneµet la varianceσ2σ2nμ . (On peut prouver facilement.)σ2n

Par conséquent, approximativement, devrait s'écarter de μ avec une variance impliquant deux variances, donc additionnez-les et obtenez σ 2 = σ 2 t + σ 2Xμ . En résolvant ceci, nous obtenonsσ2=σ 2 t ×nσ2=σt2+σ2n . Remplacerσ 2 t donne notre estimateur pour la variance de population:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

On peut aussi prouver que est vrai.E[S2]=σ2


J'espère que cela n'est pas trop trivial: est-ce le fait que la moyenne de l'échantillon converge vers ND ( , σμ ) lorsque n devient arbitrairement grand, la raison pour laquelle la moyenne de l'échantillon s'écarte de la moyenne réelle avec la varianceσ2σn ? σ2n
RexYuan

6
C’est une meilleure explication que les autres car elle montre les équations et les dérivations au lieu d’utiliser simplement yagga yagga avec des termes statistiques.
Nav

1
@sevenkul pouvons-nous certains comment voir cela visuellement? quand vous dites, X devrait s'écarter de avec cette variance nette, je suis perdu à visualiser celaμ
Parthiban Rajendran

17

Il s’agit d’une intuition totale, mais la réponse la plus simple est une correction visant à rendre l’écart-type de l’échantillon à un élément non défini au lieu de 0.


11
Pourquoi ne pas utiliser ou même1nn21 comme corrections? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
est encore plus "parcimonieux". :-)1n1
whuber

2
@mbq, En ce qui concerne votre réponse ~ "c'est une correction apportée pour rendre l'écart type d'un échantillon à un élément non défini plutôt que 0", est-ce vraiment la raison pour laquelle, ou s'agit-il d'une réponse plaisanterie? Vous savez que les non-maths comme nous ne peuvent pas le dire.
Pacerier

4
Formellement, c'est une conséquence que la raison, mais, comme je l'ai écrit, je trouve que c'est une bonne idée pour le mémoriser.

14

Vous pouvez acquérir une compréhension plus profonde du terme grâce à la géométrie seule, non seulement pourquoi il n’est pas n, mais pourquoi il prend exactement cette forme, mais vous devrez peut-être d’abord renforcer votre intuition pour faire face à la géométrie n- dimensionnelle. À partir de là, cependant, il ne reste qu'un petit pas vers une compréhension plus approfondie des degrés de liberté dans les modèles linéaires (c'est-à-dire le modèle df et le df résiduel). Je pense qu'il y a peu de doute que Fisher a pensé de cette façon. Voici un livre qui le construit progressivement:n1nn

Saville DJ, Wood GR. Méthodes statistiques: l'approche géométrique . 3ème édition. New York: Springer-Verlag; 1991. 560 pages. 9780387975177

(Oui, 560 pages. Je l'ai dit progressivement.)


Merci onestop - Je ne pensais pas qu'il y aurait une réponse de cette direction. Y a-t-il un moyen de résumer l'intuition ou est-ce que ce ne sera probablement pas possible? Cordialement, Tal
Tal Galili

Je ne pouvais pas le faire moi-même, mais un critique de livre a résumé l'approche dans un paragraphe de Amer. Stat. en 1993: jstor.org/stable/2684984 . Je ne suis pas sûr que ce soit vraiment pratique d’utiliser cette approche avec vos étudiants à moins de l’adopter pour l’ensemble du cours.
onestop

Pouvez-vous résumer un peu l'intuition plutôt qu'une simple référence à un livre?
oliversm

12

L'estimateur de la variance de la population est biaisé lorsqu'il est appliqué à un échantillon de la population. Afin d’ajuster ce biais, il faut diviser par n-1 au lieu de n. On peut montrer mathématiquement que l'estimateur de la variance de l'échantillon est non biaisé lorsque l'on divise par n-1 au lieu de n. Une preuve formelle est fournie ici:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Au départ, je suppose que c'est la correction mathématique qui a conduit à la formule. Cependant, si l'on veut ajouter de l'intuition à une formule, les suggestions déjà mentionnées semblent raisonnables.

Premièrement, les observations d’un échantillon sont en moyenne plus proches de la moyenne de l’échantillon que de la moyenne de la population. L'estimateur de variance utilise la moyenne de l'échantillon et sous-estime par conséquent la variance réelle de la population. La division par n-1 au lieu de n corrige ce biais.

De plus, en divisant par n-1, la variance d'un échantillon à un élément n'est plus définie, mais non définie à zéro.


12

Pourquoi diviser par plutôt que n ? Parce que cela est habituel et donne une estimation non biaisée de la variance. Cependant, il en résulte une estimation biaisée (faible) de l'écart type, comme en témoigne l'application de l'inégalité de Jensen à la fonction concave, la racine carrée.n1n

Alors, quel est l'avantage d'avoir un estimateur non biaisé? Cela ne minimise pas nécessairement l'erreur quadratique moyenne. Le MLE pour une distribution normale consiste à diviser par plutôt que par n - 1 . Apprenez à vos élèves à penser, plutôt qu’à régurgiter et à appliquer aveuglément des notions désuètes d’il ya un siècle.nn1


8
n1

1
Ma dernière phrase était un conseil amical à toutes les personnes concernées, par opposition à une attaque contre le PO.
Mark L. Stone

Dans de nombreuses utilisations, cela n’aura pas d’importance; lorsqu’il est utilisé dans des tests ou pour des intervalles de confiance, il faudrait ajuster les autres parties de la procédure et obtenir le même résultat!
kjetil b halvorsen

8

αz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Ce n’est que sur cet échange de pile que cela pourrait être considéré comme une réponse intuitive.
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Pour passer de la définition aléatoire de la variance à la définition de la variance échantillon, il suffit d'estimer une attente par une moyenne qui peut être justifiée par le principe philosophique de la typicité: L'échantillon est une représentation typique de la distribution. (Notez que ceci est lié à, mais pas la même chose que l'estimation par moments.)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Il est difficile de comprendre pourquoi "une variance infinie serait un résultat plus fiable" qu'une variance nulle. En effet, vous semblez utiliser la "variance d'échantillon" au sens d'un estimateur de variance , ce qui est encore plus déroutant.
whuber

1
0<

4

À la suggestion de whuber , cette réponse a été copiée d' une autre question similaire .

La correction de Bessel est adoptée pour corriger le biais en utilisant la variance de l'échantillon comme estimateur de la variance vraie. Le biais dans la statistique non corrigée se produit parce que la moyenne de l'échantillon est plus proche du milieu des observations que la moyenne réelle, de sorte que les écarts carrés autour de la moyenne de l'échantillon sous-estiment systématiquement les écarts carrés autour de la moyenne réelle.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Prendre les rendements attendus:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Merci pour la preuve!
up upming

0

En général, l’utilisation de "n" dans le dénominateur donne des valeurs inférieures à la variance de la population, ce que nous voulons estimer. Cela se produit surtout si les petits échantillons sont prélevés. Dans le langage statistique, nous disons que la variance de l’échantillon fournit une estimation «biaisée» de la variance de la population et doit être rendue «non biaisée».

Si vous recherchez une explication intuitive, vous devriez laisser vos élèves comprendre eux-mêmes la raison en prélevant des échantillons! Regardez ceci, cela répond précisément à votre question.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Pour répondre à cette question, nous devons revenir à la définition d'un estimateur non biaisé. Un estimateur non biaisé est un estimateur dont l'attente tend à la vraie. La moyenne de l'échantillon est un estimateur sans biais. Pour voir pourquoi:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Laissez-nous regarder l'attente de la variance de l'échantillon,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

La distribution T généralisée de Student a trois paramètres et utilise les trois statistiques. Si vous décidez de supprimer certaines informations, vous pouvez procéder à une approximation supplémentaire de vos données en utilisant une distribution normale à deux paramètres, comme décrit dans votre question.

D'un point de vue bayésien, vous pouvez imaginer que l'incertitude des hyperparamètres du modèle (distributions sur la moyenne et la variance) fait que la variance de la prédiction postérieure est supérieure à la variance de la population.


-4

Mon Dieu ça se complique! Je pensais que la réponse était simple: si vous avez tous les points de données, vous pouvez utiliser "n", mais si vous avez un "échantillon", alors, en supposant qu'il s'agisse d'un échantillon aléatoire, vous avez plus de points d'échantillon à l'intérieur de l'écart type. que de l'extérieur (la définition de l'écart type). Vous n'avez tout simplement pas assez de données à l'extérieur pour vous assurer d'obtenir tous les points de données dont vous avez besoin de manière aléatoire. Le n-1 aide à s’étendre vers l’écart type "réel".


3
n1n2
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.