Comment exactement les statisticiens ont-ils accepté d'utiliser (n-1) comme estimateur sans biais pour la variance de population sans simulation?


67

La formule de calcul de la variance a au dénominateur:(n1)

s2=i=1N(xix¯)2n1

Je me suis toujours demandé pourquoi. Cependant, lire et regarder quelques bonnes vidéos sur le "pourquoi", il semble que soit un bon estimateur non biaisé de la variance de la population. Alors que sous-estime et surestime la variance de la population.n ( n - 2 )(n1)n(n2)

Ce que je suis curieux de savoir, c’est que c’est à l’ère de l’absence d’ordinateurs que ce choix a été fait exactement? Existe-t-il une preuve mathématique qui le prouve ou est-ce purement empirique et les statisticiens ont-ils fait BEAUCOUP de calculs à la main pour trouver la "meilleure explication" de l'époque?

Comment les statisticiens ont-ils imaginé cette formule au début du 19e siècle à l'aide d'ordinateurs? Manuel ou il y a plus que ce qui est à l'oeil?


13
Je suppose que vous voulez dire " sans l'aide d'ordinateurs". La réponse est - peut-être sans surprise - par l'utilisation de l'algèbre. La dérivation est assez simple et dans de nombreux endroits, il est courant pour les étudiants en statistique de la dériver en tant qu’exercice / de l’apprendre au premier cycle.
Glen_b

Je pense que cela donne une assez bonne explication: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


J'ai modifié votre formule pour utiliser et car le du dénominateur correspond à la variance de l' échantillon (symboles latins) et non à la variance de la population (symboles grecs). ˉ x n - 1s2x¯n1
Alexis

Réponses:


40

La correction s'appelle la correction de Bessel et a une preuve mathématique. Personnellement, on m'a appris la méthode la plus simple: utiliser c'est comment corriger le biais de (voir ici ).E [ 1n1E[1n1n(xix¯)2]

Vous pouvez également expliquer la correction basée sur le concept de degrés de liberté, la simulation n’est pas strictement nécessaire.


15
La preuve de substitution n ° 3 offre une belle explication intuitive que même un profane peut comprendre. L'idée de base est que la moyenne de l'échantillon n'est pas la même que la moyenne de la population. Vos observations vont naturellement être plus proches de la moyenne de l'échantillon que de la moyenne de la population, ce qui finit par sous-estimer les termes avec . Cela est probablement évident pour la plupart des gens, mais je n’ai jamais pensé à «l’intuition» de savoir pourquoi la variance biaisée de l’échantillon est biaisée jusqu’à présent. J'ai seulement appris les preuves formelles. ( x i - ˉ x ) 2(xiμ)2(xix¯)2
WetlabStudent

2
Il existe également une approche géométrique pour laquelle corriger avec n-1 (très bien expliqué dans Saville et Wood: Méthodes statistiques: l’approche géométrique). En bref: un échantillon de n peut être considéré comme un espace de données à n dimensions. Les vecteurs ponctuels de l'échantillon s'ajoutent à un vecteur observé qui peut être décomposé en un vecteur de modèle avec une dimension p correspondant au paramètre p et un vecteur d'erreur avec une dimension np. La rupture pythagorienne correspondante du vecteur d’erreur a np carrés dont la moyenne est une mesure de la variation.
giordano

Je vais vous donner un beau lien qui contient une brève explication: fr.wikipedia.org/wiki/Bias_of_an_estimator
Christina

Pouvez-vous expliquer pourquoi dans la preuve (alternative 3), nous supposons que les variances vraie et biaisée sont calculées à l'aide de ? Le problème des différentes variances se pose lorsque nous avons une population (avec une variance vraie) et un échantillon (avec une variance biaisée). Mais si nous calculons la variance sur les mêmes données, à savoir , pourquoi devraient-elles différer? Là, nous pensons que est une variance vraie calculée en utilisant exactement les mêmes que celle qui est biaisée . Je ne peux pas être d'accord avec cette preuve. S'il vous plaît, aidez-moi, qu'est-ce qui me manque? x x 1 , x 2 , . . . , x n σ 2 x s 2 biaisén xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

La plupart des preuves que j'ai vues sont assez simples pour que Gauss (quelle que soit sa manière de le faire) a probablement trouvé cela assez facile à prouver.

J'ai cherché une dérivation sur CV à laquelle je pourrais vous associer (il existe un certain nombre de liens vers des preuves hors site, dont au moins une dans les réponses ici), mais je n'en ai pas trouvé ici dans un CV. quelques recherches, donc par souci d’exhaustivité, je vais vous en donner une simple. Compte tenu de sa simplicité, il est facile de voir comment les gens commenceraient à utiliser ce que l’on appelle habituellement la correction de Bessel .

Cela prend comme connaissances supposées et suppose que les premières propriétés de variance de base sont connues.E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
quelle propriété fait disparaître le terme ? 2x¯i=1nxi
Ciprian Tomoiagă

3
Ça ne disparaît pas. Avez-vous remarqué que le signe du dernier mandat a été modifié?
Glen_b

1
(+1) J'ai récemment entendu une excellente preuve que je trouve personnellement plus intuitif. La variance de l'échantillon avec le facteur peut être exprimée à nouveau comme la moyenne de toutes les différences au carré entre tous les points de la paire. Remarquez maintenant que les paires où le même point entre deux fois sont toutes égales à zéro, ce qui biaise l'expression. Il semble raisonnable de corriger le biais en excluant toutes ces paires de la double somme et en ne faisant la moyenne que pour les autres. Cela donne la correction de Bessel. 1/n
amibe dit de réintégrer Monica

1
Non, ça ne fait rien, compris. , vous appliquez donc la même identité que vous avez mentionnée ci-dessus aux deux termes de la ligne 3.V[x¯]=V[x]n
tel

1
Tous les variates iid ont le même second moment. Nous en parlons tous pour parler de l’un d’eux. Vous pouvez aussi facilement avoir pris (et certaines personnes ne) ou ou ... mais j'ai pris la -èmex1x2xni
Glen_b

37

Selon le livre World of Mathematics de Weisstein, il a été prouvé pour la première fois par Gauss en 1823. La référence est le volume 4 de Gauss 'Werke, qui peut être lu à l' adresse https://archive.org/details/werkecarlf04gausrich . Les pages pertinentes semblent être 47-49. Il semblerait que Gauss ait enquêté sur la question et proposé une preuve. Je ne lis pas le latin, mais il y a un résumé en allemand dans le texte. Les pages 103-104 expliquent ce qu'il a fait (Edit: j'ai ajouté une traduction approximative):

En savoir plus sur ce qui est écrit: als sie wirklich besitzen. [Mais comme on n’est pas autorisé à traiter les valeurs les plus probables comme s’il s’agissait des valeurs réelles, on peut facilement se convaincre que l’on doit toujours trouver que l’erreur la plus probable et l’erreur moyenne sont trop petites et que, par conséquent, les résultats donnés posséder une plus grande précision que ce qu'ils ont vraiment.]

d'où il semblerait qu'il était notoire que la variance de l'échantillon est une estimation biaisée de la variance de la population. L'article ajoute que la différence entre les deux est généralement ignorée car ce n'est pas important si la taille de l'échantillon est suffisante. Puis il dit:

Cliquez ici pour en savoir plus sur tous les prix et toutes les infos sur les élèves, cliquez ici pour afficher le résultat. Homme souriant à la recherche de personnes fantastiques, jeunes adultes et jeunes filles féeriques, en plein dans le monde

πρπ

zu multiplicieren, wo die Anzahl der Beobachtungen (nombre d'observations) und die Anzahl der unbekannten Groessen (nombre d'inconnues) bedeutet. [L’auteur a donc fait une étude spéciale de cet objet qui a abouti à un résultat très étrange et extrêmement simple. À savoir, il suffit de multiplier l'erreur moyenne trouvée par le processus erroné ci-dessus par (l'expression donnée) pour la remplacer par celle de droite, où est le nombre d'observations et le nombre d'inconnues.]πρπρ

Donc, si c’est bien la première fois que la correction est trouvée, il semblerait qu’elle ait été trouvée grâce à un calcul astucieux de Gauss, mais les gens étaient déjà conscients qu’une correction était nécessaire, de sorte que quelqu'un aurait peut-être pu la trouver empiriquement . Ou peut-être les auteurs précédents ne se sont-ils pas souciés de trouver la réponse exacte, car ils travaillaient de toute façon avec des ensembles de données assez volumineux.

Résumé: manuel, mais les gens savaient déjà que dans le dénominateur n’était pas tout à fait correct.n


Si quelqu'un pouvait fournir une traduction de l'allemand, ce serait bien. Pour ma part, je ne lis pas l'allemand.
Faheem Mitha

2
Oui, Google Translate ne fonctionne pas très bien à cause de mes fautes d'orthographe! J'ajouterai une tentative de traduction; ce sera un bon moyen de pratiquer mon allemand.
Flounderer

14

Pour moi, l'intuition est que

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

C'est,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Prouver réellement l'équation ci-dessus prend un peu d'algèbre (cette algèbre est très similaire à la réponse de @ Glen_b ci-dessus). Mais si cela est vrai, nous pouvons réorganiser pour obtenir:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Pour moi, un autre élément d'intuition est que l'utilisation de au lieu de introduit un biais. Et ce biais est exactement égal à .X¯μE[(X¯μ)2]=σ2n


12

La plupart des réponses l'ont déjà expliqué, mais à part celles-ci, il y a une illustration simple que l'on pourrait trouver utile:

Supposons que et que les trois premiers chiffres sont:n=4

8,4,6 , _

Maintenant, le quatrième nombre peut être n'importe quoi puisqu'il n'y a pas de contraintes. Considérons maintenant la situation dans laquelle on vous donne et , alors si les trois premiers nombres sont: le quatrième nombre doit être .ˉ x = 6 8 , 4 , 6 6n=4x¯=68,4,66

Cela signifie que si vous connaissez valeurs et , alors la valeur n'a aucune liberté. Ainsi, nous donne un estimateur non biaisé.ˉ x n t h n - 1n1x¯nthn1

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.