Pourquoi l'augmentation de la taille de l'échantillon réduit-elle la variance (d'échantillonnage)?


35

Grande image:

J'essaie de comprendre comment l'augmentation de la taille de l'échantillon augmente la puissance d'une expérience. Les diapositives de mon conférencier expliquent cela avec une image de 2 distributions normales, une pour l'hypothèse nulle et une pour l'hypothèse alternative et un seuil de décision c entre elles. Ils font valoir que l’augmentation de la taille de l’échantillon réduira la variance et entraînera donc un kurtosis plus élevé, ce qui réduira l’aire partagée sous les courbes et donc la probabilité d’une erreur de type II.

Petite image:

Je ne comprends pas comment un échantillon de plus grande taille réduira la variance.
Je suppose que vous ne faites que calculer la variance de l’échantillon et l’utiliser comme paramètre dans une distribution normale.

J'ai essayé:

  • googler , mais la plupart des réponses acceptées ont 0 upvotes ou sont simplement des exemples
  • réflexion : selon la loi des grands nombres, chaque valeur devrait éventuellement se stabiliser autour de sa valeur probable selon la distribution normale que nous supposons. Et la variance devrait donc converger vers la variance de notre distribution normale supposée. Mais quelle est la variance de cette distribution normale et s’agit-il d’une valeur minimale, c’est-à-dire pouvons-nous être sûrs que la variance de notre échantillon diminue à cette valeur?

Votre expérience de pensée concernait des données normalement distribuées, mais elle s'appliquait également à des données provenant de nombreuses autres distributions (comme l'a noté @Aksakal, pas toutes! Le cas de Cauchy est un exemple couramment cité d'un tel comportement répréhensible). Pour les données binomiales, il existe une discussion intéressante sur la façon dont la puissance et l'erreur standard varient en fonction de la taille de l'échantillon à l' adresse stats.stackexchange.com/q/87730/22228
Silverfish

1
Comme vous êtes nouveau sur CrossValidated, permettez-moi de souligner que si vous recevez une réponse satisfaisante, vous devez envisager de la marquer comme "acceptée" en cliquant sur une coche verte à gauche de celle-ci. Cela fournit une réputation supplémentaire au répondeur et marque également la question comme résolue.
Amibe dit de réintégrer Monica le

J'y pense comme ceci: chaque nouveau point a une information unique. Les points infinis ont de quoi faire une estimation parfaite. Au fur et à mesure que nous ajoutons de nouveaux points d'échantillonnage, la différence entre les informations dont nous avons besoin pour obtenir une estimation parfaite et les informations dont nous disposons devient de plus en plus réduite.
EngrStudent

C'est la source de la confusion: ce n'est pas la variance de l'échantillon qui diminue, mais la variance de la variance de l'échantillon. La variance de l'échantillon est un estimateur (donc une variable aléatoire). Si vos données proviennent d'un N normal (0, 5), la variance de l'échantillon sera proche de 5. À quelle proximité? Dépend de la variance de votre estimateur pour la variance de l'échantillon. Avec 100 points de données, vous pouvez trouver quelque chose comme 4.92. Avec 1000, vous trouverez quelque chose comme 4.98. Avec 10000, vous trouverez 5.0001. Ainsi, la précision de vos mesures augmente et non vos mesures elles-mêmes.
Ant

Réponses:


32

Les écarts types des moyennes sont inférieurs aux écarts types des observations individuelles. [Je supposerai ici des observations indépendantes identiques distribuées avec une variance de population finie; quelque chose de similaire peut être dit si vous relâchez les deux premières conditions.]

C'est une conséquence du simple fait que l'écart type de la somme de deux variables aléatoires est inférieur à la somme des écarts-types (il ne peut être égal lorsque les deux variables sont parfaitement corrélées).

En fait, lorsque vous avez affaire à des variables aléatoires non corrélées, nous pouvons dire quelque chose de plus spécifique: la variance d'une somme de variables est la somme de leurs variances.

Cela signifie qu'avec variables (ou même simplement non corrélées) de même distribution, la variance de la moyenne est la variance d'un individu divisée par la taille de l'échantillon .n

De manière correspondante avec variables (ou même simplement non corrélées) avec la même distribution, l'écart-type de leur moyenne est l'écart-type d'un individu divisé par la racine carrée de la taille de l'échantillon:n

σX¯=σ/n .

Ainsi, à mesure que vous ajoutez plus de données, vous obtenez des estimations de plus en plus précises des moyennes de groupe. Un effet similaire s'applique aux problèmes de régression.

Comme nous pouvons obtenir des estimations plus moyennes des moyennes en augmentant la taille de l’échantillon, nous sommes plus en mesure de distinguer les moyennes qui sont proches les unes des autres - même si les distributions se chevauchent un peu, en prenant un échantillon de grande taille, population signifie avec suffisamment de précision pour dire qu’ils ne sont pas les mêmes.


8

La variabilité qui diminue lorsque N augmente, correspond à la variabilité de la moyenne de l'échantillon, souvent exprimée sous forme d'erreur standard. Ou, en d'autres termes, la certitude de la véracité de la moyenne de l'échantillon augmente.

Imaginez que vous meniez une expérience dans laquelle vous collectez 3 hommes et 3 femmes et mesurez leur hauteur. Dans quelle mesure êtes-vous certain que les hauteurs moyennes de chaque groupe sont la véritable moyenne des populations distinctes d'hommes et de femmes? Je devrais penser que vous ne seriez pas très certain du tout. Vous pouvez facilement collecter de nouveaux échantillons de 3 et trouver de nouveaux moyens à plusieurs centimètres des premiers. Un grand nombre d'expériences répétées comme celle-ci pourraient même aboutir à ce que les femmes soient déclarées plus grandes que les hommes, car les moyennes varieraient beaucoup. Avec un faible N, vous n’avez pas beaucoup de certitude dans la moyenne de l’échantillon et cela varie beaucoup d’un échantillon à l’autre.

Imaginez maintenant 10 000 observations dans chaque groupe. Il va être assez difficile de trouver de nouveaux échantillons de 10 000 échantillons dont les moyens diffèrent beaucoup les uns des autres. Ils seront beaucoup moins variables et vous serez plus sûr de leur précision.

σn

Voici une petite simulation en R pour démontrer la relation entre une erreur type et l’écart type de la moyenne de nombreuses réplications de l’expérience initiale. Dans ce cas, nous commencerons par une moyenne de population de 100 et un écart-type de 15.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Notez que l’écart type final est proche de l’erreur type théorique. En jouant avec la variable n ici, vous pouvez voir que la mesure de la variabilité diminuera à mesure que n augmente.

[En passant, le kurtosis dans les graphiques ne change pas vraiment (en supposant qu'il s'agisse de distributions normales). Réduire la variance ne change pas le kurtosis, mais la distribution semblera plus étroite. La seule façon d’examiner visuellement les changements de kurtosis est de placer les distributions à la même échelle.]


tu avais raison, plus de réflexion devrait être impliquée de ma part à l'avenir: P
j__

Deux choses ne sont pas tout à fait claires: (1) Est-ce que les courbes en cloche que l'OP parle de distributions de moyennes d'échantillon? (2) La taille des échantillons est-elle prise en compte pour la distribution de la moyenne des échantillons du groupe témoin et pour la distribution de la moyenne des échantillons du groupe expérimental?
Lenar Hoyt

4

Si vous voulez savoir quel est le poids moyen des citoyens américains, alors, dans le cas idéal, demandez immédiatement à chaque citoyen d'intervenir sur la balance et de collecter les données. Vous obtiendrez une réponse exacte . C'est très difficile, alors peut-être pourriez-vous amener quelques citoyens à monter à l'échelle, à calculer la moyenne et à avoir une idée de ce qu'est la moyenne de la population. Vous attendriez-vous à ce que la moyenne de l'échantillon soit exactement égale à la moyenne de la population? J'espère que non.

Maintenant, seriez-vous d'accord pour dire que si vous avez de plus en plus de monde, nous nous rapprocherions de la population moyenne? Nous devrions, non? En fin de compte, le plus grand nombre de personnes que nous pouvons obtenir est une population entière, et sa moyenne correspond à ce que nous recherchons. C'est l'intuition.

Ce fut une expérience de pensée idéalisée. En réalité, il y a des complications. Je vais vous en donner deux.

  • Imaginez que les données proviennent d'une distribution de Cauchy . Vous pouvez augmenter votre échantillon indéfiniment, mais la variance ne diminuera pas. Cette distribution n'a pas de variance de population. En fait, à proprement parler, il n’a pas non plus d’échantillon de moyenne. C'est triste. Étonnamment, cette distribution est assez réelle, elle apparaît ici et là en physique.
  • Imaginez que vous ayez décidé de continuer à déterminer le poids moyen des citoyens américains. Alors, vous prenez votre balance et allez de maison en maison. Cela vous prendra plusieurs années. Lorsque vous collecterez des millions d'observations, certains des citoyens de votre ensemble de données auront beaucoup changé de poids, d'autres sont morts, etc. Le fait est que l'augmentation de la taille de l'échantillon dans ce cas ne vous aide pas.

1
Je suppose que vous vouliez dire "poids moyen" dans votre première phrase. J'aime l'utilisation d'une expérience de pensée. Votre outil de mesure peut également compliquer les choses: les balances qui s'usent peuvent présenter une erreur de parallaxe ou une erreur de l'utilisateur qui introduit une autre variabilité.
MarkR

1

Je crois que la loi des grands nombres explique pourquoi la variance (erreur type) diminue lorsque la taille de l'échantillon augmente. L'article de Wikipedia sur ceci dit:

Selon la loi, la moyenne des résultats obtenus avec un grand nombre d'essais devrait être proche de la valeur attendue et tendra à se rapprocher à mesure que d'autres essais sont effectués.

En termes de théorème de limite centrale:

Lors de la sélection d'un échantillon aléatoire unique, plus l'échantillon est grand, plus la moyenne de l'échantillon est proche de la moyenne de la population (dans la citation ci-dessus, pensez au "nombre d'essais" à la "taille de l'échantillon", chaque "essai" est donc une observation. ) Par conséquent, lors du tirage d'un nombre infini d'échantillons aléatoires, la variance de la distribution d'échantillonnage sera d'autant plus faible que la taille de chaque échantillon est grande.

En d'autres termes, la forme de la cloche sera plus étroite lorsque chaque échantillon est grand au lieu de petit, car ainsi, la moyenne de chaque échantillon sera plus proche du centre de la cloche.


0

À mesure que la taille de l'échantillon augmente, la variance de l'échantillon (variation entre les observations) augmente, mais la variance de la moyenne de l'échantillon (erreur type) diminue et donc la précision augmente.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.