Quelle est la différence entre N et N-1 dans le calcul de la variance de population?


50

Je n'ai pas compris pourquoi Net N-1en calculant la variance de la population. Quand utilisons-nous Net quand utilisons-nous N-1?

entrez la description de l'image ici
Cliquez ici pour une version plus grande

Il dit que lorsque la population est très importante, il n'y a pas de différence entre N et N-1, mais il ne dit pas pourquoi il y a N-1 au début.

Edit: S'il vous plaît ne confondez pas avec net n-1qui sont utilisés dans l'estimation.

Edit2: Je ne parle pas d'estimation de la population.


5
Vous pouvez y trouver une réponse: stats.stackexchange.com/questions/16008/… . Fondamentalement, vous devez utiliser N-1 lorsque vous estimez une variance et N lorsque vous la calculez exactement.
ocram

@ ocram, pour autant que je sache, lorsque nous estimons une variance, nous utilisons n ou n-1.
Ilhan

Si vous voulez que votre estimateur soit impartial, vous devez utiliser n-1. Notez que lorsque n est grand, ce n'est pas un problème.
ocram

2
Aucune des réponses ci-dessous n'est écrite en termes d'inférence de population finie. Le mot fini est absolument crucial ici; c'est ce dont parle le livre de Kish (et celui qui disait "Le livre est faux" n'en sait tout simplement pas assez sur les enquêtes et échantillons de population finie). Le quotient au lieu de N fait juste des calculs plus agréable et évite la nécessité de transporter autour des facteurs comme 1 - 1 / N . La réponse complète à cette question devrait introduire l’inférence d’échantillonnage dans laquelle les indicateurs de l’échantillon sont aléatoires et les valeurs des caractéristiques observées y sont FIXES. Non aléatoire. Gravé dans la pierre. N1N11/Ny
StasK

2
Cela n'ajoute pas vraiment aux autres réponses. Que différents diviseurs donnent des réponses différentes, ou même que la différence diminue avec N, n'est pas en cause. La question est de savoir quand et pourquoi utiliser l’un ou l’autre des diviseurs.
Nick Cox

Réponses:


26

est la taille de la population et n est la taille de l'échantillon. La question demande pourquoi la variance de la population est l'écart quadratique moyen par rapport à la moyenne plutôt que ( N - 1 ) / N = 1 - ( 1 / N ) fois. D'ailleurs, pourquoi s'arrêter là? Pourquoi ne pas multiplier l’écart quadratique moyen par 1 - 2 / N , ou 1 - 17 / N , ou exp ( - 1 / N ) , par exemple?Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

Il y a en fait une bonne raison de ne pas le faire. N'importe lequel de ces chiffres que je viens de mentionner pourrait très bien servir à quantifier une "propagation typique" au sein de la population. Cependant, sans connaissance préalable de la taille de la population, il serait impossible d'utiliser un échantillon aléatoire pour trouver un estimateur non biaisé d'un tel chiffre. Nous savons que la variance de l' échantillon , qui multiplie l'écart au carré moyen par rapport à la moyenne de l'échantillon par , est un estimateur sans biais de la variance de population habituelle lors d'un échantillonnage avec remplacement. (Il n’ya aucun problème à faire cette correction, car nous savons n !) La variance de l’échantillon serait donc biaisée.(n1)/nnestimateur de tout multiple de la variance de la population où ce multiple, tel que , n’est pas exactement connu au préalable.11/N

Ce problème de biais inconnu pourrait se propager à tous les tests statistiques utilisant la variance de l'échantillon, y compris les tests t et les tests F. En effet, diviser par autre chose que dans la formule de variance de la population nous obligerait à modifier toutes les totalisations statistiques des statistiques t et F (ainsi que de nombreux autres tableaux), mais l'ajustement dépendrait de la taille de la population. Personne ne veut avoir à faire des tables pour chaque N possible ! Surtout quand ce n'est pas nécessaire.NN

NN1NNn


24

Au lieu d'entrer dans les mathématiques, je vais essayer de l'exprimer en termes simples. Si vous avez toute la population à votre disposition, sa variance ( variance de la population ) est calculée avec le dénominateur N. De même, si vous n'avez qu'un échantillon et que vous voulez calculer la variance de cet échantillon , vous utilisez le dénominateur N(n de l'échantillon, dans ce cas). Dans les deux cas, notez que vous n’estimez rien: la moyenne que vous avez mesurée est la moyenne vraie et la variance que vous avez calculée à partir de cette moyenne est la variance vraie.

Maintenant, vous n'avez qu'un échantillon et vous voulez déduire de la moyenne inconnue et de la variance dans la population. En d'autres termes, vous voulez des estimations . Vous prenez la moyenne de votre échantillon pour l'estimation de la moyenne de la population (parce que votre échantillon est représentatif), OK. Pour obtenir une estimation de la variance de la population, vous devez prétendre que cette moyenne est en réalité une moyenne de population et qu'elle ne dépend donc plus de votre échantillon depuis le moment où vous l'avez calculée. Pour "montrer" que vous le considérez comme fixe, vous réservez une observation (n'importe quelle) dans votre échantillon pour "confirmer" la valeur de la moyenne: quel que soit l'état de votre échantillon, une observation réservée peut toujours ramener la moyenne à la valeur que vous avez choisie. Nous croyons être insensible aux éventualités d'échantillonnage. Une observation réservée est "-1"N-1 dans le calcul de l'estimation de la variance.

Imaginez que vous connaissiez la moyenne de la population réelle, mais que vous souhaitiez estimer la variance à partir de l'échantillon. Vous allez ensuite substituer cette moyenne vraie à la formule de la variance et appliquer un dénominateur N: aucun "-1" n'est nécessaire ici puisque vous connaissez la moyenne vraie, vous ne l'avez pas estimée à partir du même échantillon.


Mais ma question n'a rien à voir avec une estimation. Il s'agit de calculer la variance de la population; avec N et N-1. Je ne parle pas de n et n-1.
Ilhan

1
@ilhan, dans ma réponse, j'ai utilisé Nà la fois N et n. Nest la taille d'une totalité à portée de main, population ou échantillon. Pour calculer la variance de population , vous devez disposer de la population. Si vous n'avez qu'un échantillon, vous pouvez soit calculer la variance de cet échantillon, soit calculer la variance estimée de la population . Pas d'autre moyen.
ttnphns

J'ai une information complète sur ma population; toutes les valeurs sont connues. L'estimation ne m'intéresse pas.
Ilhan

1
Si vous avez votre population, utilisez N. N-1 serait illogique.
Le

1
@ilhan - Je ne peux pas commenter directement votre commentaire sur ttnphns post, mais voici une explication de ce que vous voyez dans le livre et de la façon dont vous devriez l'inférer. Le symbole 'S' utilisé pour impliquer la variance fait toujours référence à la variance de l'échantillon. La lettre grecque sigma est utilisée pour désigner la variance de la population. C'est la raison pour laquelle vous voyez la mention du livre S = N * sigma / (N - 1)
Arvind

9

Généralement, quand on a seulement une fraction de la population, c'est-à-dire un échantillon, il faut diviser par n-1. Il y a une bonne raison de le faire, nous savons que la variance de l'échantillon, qui multiplie l'écart au carré moyen par rapport à la moyenne de l'échantillon par (n-1) / n, est un estimateur sans biais de la variance de la population.

Vous pouvez trouver une preuve que l'estimateur de la variance de l'échantillon est non biaisé ici: https://economictheoryblog.com/2012/06/28/latexlatexs2/

En outre, si l'on devait appliquer l'estimateur de la variance de la population, c'est-à-dire la version de l'estimateur de la variance qui divise par n sur un échantillon de au lieu de la population, l'estimation obtenue serait biaisée.


Cela semble répondre à une question différente concernant l'estimation de la variance de la population. Cela semble circulaire: cette réponse ne repose-t-elle pas sur l'hypothèse d'une convention spécifique pour définir la variance de la population en premier lieu?
whuber

7

Dans le passé, il a été argumenté que vous devriez utiliser N pour une variance non inférentielle, mais je ne le recommanderais plus. Vous devriez toujours utiliser N-1. Au fur et à mesure que la taille de l'échantillon diminue, N-1 constitue une très bonne correction du fait que la variance de l'échantillon diminue (vous avez plus de chances d'échantillonner près du sommet de la distribution - voir la figure). Si la taille de l'échantillon est vraiment grande, peu importe la quantité significative.

Une explication alternative est que la population est un concept théorique impossible à atteindre. Par conséquent, utilisez toujours N-1 car, quoi que vous fassiez, vous estimez, au mieux, la variance de la population.

En outre, vous allez voir N-1 pour les estimations de la variance à partir de maintenant. Vous ne rencontrerez probablement jamais ce problème ... sauf lors d’un test où votre enseignant peut vous demander de faire la distinction entre un mesure de la variance non inférentielle. Dans ce cas, n'utilisez pas la réponse de whuber ou la mienne, reportez-vous à la réponse de tnphns.

Figure 1

Notez que dans cette figure, la variance doit être proche de 1. Regardez combien elle varie avec la taille de l'échantillon lorsque vous utilisez N pour estimer la variance. (c'est le "biais" mentionné ailleurs)


1
S'il vous plaît, dites-moi pourquoi N "n'est plus recommandé" avec une population réelle à portée de main? La population n'est pas toujours une construction théorique. Parfois, votre échantillon est une population de bonne foi pour vous.
ttnphns

1
Ilhan, N peut être utilisé pour votre échantillon, ou pour la taille de la population, s’il en existe une. Dans la plupart des cas, la distinction entre grand N et petit n dépend du sujet. Par exemple, n peut être le nombre de cas dans chaque condition d'une expérience, tandis que N peut être le nombre de l'expérience. Ce sont deux échantillons. Il n'y a pas de règle globale.
Jean

1
Cela dépend de ce que vous entendez par population. Je dirais que si votre population entière est si petite que N-1 est importante, il est alors douteux que le calcul d'un écart carré moyen soit vraiment inutile. Montre toutes les valeurs, leur forme et leur portée. En outre, le vieil argument selon lequel vous avez réellement N degrés de liberté si vous ne faites pas de déduction est discutable. Vous en avez perdu un lorsque vous avez calculé la moyenne, ce qui vous a demandé de calculer la variance.
Jean

1
@John, si vous calculez la moyenne au sein de la population que vous venez d' indiquer le fait sur le paramètre, vous passez pas de degrés de liberté. Si vous le calculez dans l'échantillon et souhaitez déduire à propos de la population, vous en dépensez un. De plus, je peux avoir une population avec N = 1. Avec dénominateur N-1, il appeares que ce paramètre comme la variance n'existe pour elle. C'est du n'importe quoi.
ttnphns

3
@ilhan S'il vous plaît, envisagez de mettre à jour votre question (comme vous l'avez fait) et pointez sur la version mise à jour plutôt que de laisser de tels commentaires non constructifs. Tout est discutable, surtout lorsque la question elle-même manque de contexte. Ici, il semble que le problème ne réside pas dans la définition de ce qu'est réellement une population.
Chl

4

La variance de population est la somme des écarts au carré de toutes les valeurs de la population divisée par le nombre de valeurs de la population. Lorsque nous estimons la variance d'une population à partir d'un échantillon, nous rencontrons toutefois le problème suivant: les écarts des valeurs de l'échantillon par rapport à la moyenne de l'échantillon sont en moyenne un peu inférieurs aux écarts de ces valeurs de l'échantillon par rapport à ( inconnu) vraie population moyenne. Cela se traduit par une variance calculée à partir de l'échantillon légèrement inférieure à la variance réelle de la population. L'utilisation d'un diviseur n-1 au lieu de n corrige cette sous-estimation.


@ Bunnenburg, Si vous avez une réponse à votre question. S'il te plaît, efface-moi ce que tu as C'est une grande confusion pour moi aussi.
Bilal Para

pour compenser ce peu moins de variance que nous obtenons, pourquoi ne pouvons-nous pas utiliser n-2, n-3, etc.? pourquoi n-1 en particulier? pourquoi pas une constante ... ???
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran La différence varie avec la taille de l'échantillon et une constante ne servira pas. La correction en utilisant n-1 est plus proche fonctionne mieux que les autres que vous mentionnez.
Michael Lew
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.