Comment connaître la variance de la population?


10

Dans les tests d'hypothèses, une question courante est quelle est la variance de la population? Ma question est de savoir comment connaître la variance de la population? Si nous connaissions l'ensemble de la répartition, nous pourrions aussi bien connaître la moyenne de l'ensemble de la population. Quel est alors l'intérêt du test d'hypothèse?


Quelques publications pertinentes: nber.org/papers/w20325
dv_bn

On peut connaître la variance sans rien savoir de la moyenne. Par exemple, la variance peut être récupérée à partir des carrés de toutes les différences de valeurs dans la population, mais ces différences ne donnent aucune information sur la moyenne. Quoi qu'il en soit, je ne vois pas comment les déclarations et les questions dans ce post mènent à la question elle-même sur le point du test d'hypothèse.
whuber

Réponses:


10

Je ne suis pas sûr que ce problème se pose vraiment "souvent" en dehors de Statistiques 101 (introduction aux statistiques). Je ne suis pas sûr de l'avoir jamais vu. D'un autre côté, nous présentons le matériel de cette façon lors de l'enseignement des cours d'introduction, car il fournit une progression logique: vous commencez avec une situation simple où il n'y a qu'un seul groupe et vous connaissez la variance, puis progressez là où vous ne le faites pas. connaître la variance, puis progresser vers deux groupes (mais avec une variance égale), etc.

Pour aborder un point légèrement différent, vous vous demandez pourquoi nous prendrions la peine de tester des hypothèses si nous connaissions la variance, car nous devons donc également connaître la moyenne. La dernière partie est raisonnable, mais la première partie est un malentendu: la moyenne que nous saurions serait la moyenne sous l'hypothèse nulle. C'est ce que nous testons. Prenons l'exemple de @ StephanKolassa des scores de QI. Nous savons que la moyenne est de 100 et l'écart-type est de 15; ce que nous testons, c'est si notre groupe (disons, les rousses gauchers, ou peut-être les étudiants en statistiques d'introduction) diffère de cela.


2
(+1) Cela revient peut-être davantage lorsque «l'échantillonnage d'une population» est une façon de penser le processus de génération de données, plutôt que quelque chose à prendre au pied de la lettre. Connaître la précision d'un instrument de mesure par exemple.
Scortchi - Réintégrer Monica

Gung, en tant que pratiquant avec une carrière de plus de 20 ans, ce problème est apparu plus fréquemment que vous ne le pensez. Je ne dis pas que cela est revenu "fréquemment", juste que les débats ont eu lieu. Cependant, et pour ce que vous avez dit à propos de Statistiques 101, la plupart du temps, les discussions étaient des harengs rouges qui résolvaient peu ou rien concernant les détails d'une étude ou d'un projet - quelqu'un voulait simplement créer une apparence d'intelligence en posant la question.
Mike Hunter

1
@DJohnson, je suppose que cela dépend des sujets sur lesquels vous travaillez.
gung - Rétablir Monica

4

Souvent, nous ne connaissons pas la variance de la population en tant que telle - mais nous avons une estimation très fiable à partir d'un échantillon différent. Par exemple, voici un exemple pour évaluer si le poids moyen des pingouins a baissé, où nous utilisons la moyenne d'un petit échantillon, mais la variance d'un plus grand échantillon indépendant. Bien entendu, cela suppose que la variance soit la même dans les deux populations.

Un autre exemple pourrait être les échelles de QI classiques. Celles-ci sont normalisées pour avoir une moyenne de 100 et un écart-type de 15, en utilisant de très grands échantillons. Nous pourrions alors prendre un échantillon spécifique (disons, 50 rousses gauchers) et demander si leur QI moyen est significativement supérieur à 100, en utilisant 15 ^ 2 comme une variance "connue". Bien sûr, encore une fois, cela soulève la question de savoir si la variance est vraiment égale entre les deux échantillons - après tout, nous testons déjà si les moyennes sont différentes, alors pourquoi les variances devraient-elles être égales?

Conclusion: vos préoccupations sont valables et les tests avec des moments connus ne servent généralement qu'à des fins didactiques. Dans les cours de statistiques, ils sont généralement immédiatement suivis de tests utilisant des moments estimés .


2

La seule façon de connaître la variance de la population est de mesurer la population entière.

Cependant, il n'est souvent pas possible de mesurer une population entière; cela nécessite des ressources, notamment de l'argent, des outils, du personnel et un accès. Pour cette raison, nous échantillonnons les populations; qui mesure un sous-ensemble de la population. Le processus d'échantillonnage doit être conçu avec soin et dans le but de créer un échantillon de population représentatif de la population; donnant deux considérations clés - taille de l'échantillon et technique d'échantillonnage.

Exemple de jouet: Vous souhaitez estimer la variance du poids pour la population adulte de Suède. Il y a environ 9,5 millions de Suédois, il est donc peu probable que vous puissiez tous les mesurer. Par conséquent, vous devez mesurer un échantillon de population à partir duquel vous pouvez estimer la véritable variance intra-population.

Vous vous dirigez pour échantillonner la population suédoise. Pour ce faire, vous vous tenez dans le centre-ville de Stockholm et vous vous trouvez juste devant la chaîne fictive populaire de hamburgers suédois Burger Kungen . En fait, il pleut et il fait froid (ce doit être l'été) alors vous vous tenez à l'intérieur du restaurant. Ici, vous pesez quatre personnes.

Il y a de fortes chances que votre échantillon ne reflète pas très bien la population suédoise. Ce que vous avez, c'est un échantillon de personnes à Stockholm, qui sont dans un restaurant de hamburgers. Il s'agit d'une mauvaise technique d'échantillonnage, car elle risque de biaiser le résultat en ne donnant pas une représentation juste de la population que vous essayez d'estimer. De plus, vous avez un petit échantillon, vous avez donc un risque élevé de choisir quatre personnes qui sont dans les extrêmes de la population; soit très léger ou très lourd. Si vous avez échantillonné 1 000 personnes, vous êtes moins susceptible de provoquer un biais d'échantillonnage; il est beaucoup moins probable de choisir 1000 personnes inhabituelles que de choisir quatre personnes inhabituelles. Une taille d'échantillon plus grande vous donnerait au moins une estimation plus précise de la moyenne et de la variance du poids parmi les clients de Burger Kungen.

entrez la description de l'image ici

L'histogramme illustre l'effet de la technique d'échantillonnage, la répartition en gris pourrait représenter la population de la Suède qui ne mange pas à Burger Kungen (moyenne 85 kg), tandis que le rouge pourrait représenter la population des clients de Burger Kungen (moyenne 100 kg) , et les tirets bleus pourraient être les quatre personnes que vous échantillonnez. Une technique d'échantillonnage correcte devrait peser la population équitablement, et dans ce cas ~ 75% de la population, donc 75% des échantillons mesurés, ne devraient pas être des clients de Burger Kungen.

Il s'agit d'un problème majeur avec de nombreuses enquêtes. Par exemple, les personnes susceptibles de répondre aux enquêtes de satisfaction des clients ou aux sondages d'opinion lors des élections ont tendance à être représentées de manière disproportionnée par ceux qui ont des opinions extrêmes; les personnes ayant des opinions moins fortes ont tendance à être plus réservées à les exprimer.

Le point du test d'hypothèse est ( pas toujours ), par exemple, de tester si deux populations diffèrent l'une de l'autre. Par exemple, les clients de Burger Kungen pèsent-ils plus que les Suédois qui ne mangent pas chez Burger Kungen? La capacité de tester cela avec précision dépend d'une technique d'échantillonnage appropriée et d'une taille d'échantillon suffisante.


Code R à tester pour que tout cela se produise:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Résultats:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 

1

Oui, c'est vrai, mais dans ces cas, il y a aussi une mise à l'échelle vers une moyenne fixe, donc cela ne donne pas une situation où il y a une moyenne inconnue et une variance connue. En outre, la mise à l'échelle est effectuée une fois que toutes les valeurs sont connues.
Ben - Rétablir Monica le

1

Le seul exemple réaliste auquel je peux penser lorsque la moyenne est inconnue mais que la variance est connue est quand il y a un échantillonnage aléatoire de points sur une hypersphère (dans n'importe quelle dimension) avec un rayon fixe et un centre inconnu. Ce problème a une moyenne inconnue (centre de la sphère) mais une variance fixe (rayon carré de la sphère). Je ne connais aucun autre exemple réaliste où il existe une moyenne inconnue mais une variance connue. (Et pour être clair: le simple fait d'avoir une estimation de variance extérieure à partir d'autres données n'est pas un exemple de variance connue. De plus, si vous avez cette estimation de variance à partir d'autres données, pourquoi n'avez-vous pas également une estimation moyenne correspondante à partir de cette même Les données?)

À mon avis, les cours d'introduction à la statistique qui enseignent des tests avec une moyenne inconnue et une variance connue sont un anachronisme, et ils sont mal orientés en tant qu'outil d'enseignement moderne. Sur le plan pédagogique, il est préférable de commencer directement par le test T pour le cas d'une moyenne et d'une variance inconnues, et de traiter le test z comme une approximation asymptotique de celle-ci qui s'applique lorsque les degrés de liberté sont importants (ou non même la peine d’enseigner le test z). Le nombre de situations où il y aurait une variance connue mais une moyenne inconnue est extrêmement faible, et il est généralement trompeur pour les élèves de présenter ce cas (incroyablement rare).


0

Parfois, dans les problèmes appliqués, il y a des raisons présentées par la physique, l'économie, etc. qui nous renseignent sur la variance et n'ont aucune incertitude. D'autres fois, la population peut être limitée et nous pouvons connaître certaines choses sur tout le monde, mais nous devons échantillonner et effectuer des statistiques pour apprendre le reste.

Généralement, votre préoccupation est assez valable.


5
J'ai du mal à imaginer un exemple de physique ou d'économie où nous connaîtrions la variance, mais pas la moyenne. Similaire pour les distributions discrètes. Pourriez-vous donner un exemple concret ou deux?
Stephan Kolassa

@StephanKolassa Je crois que les mesures expérimentales de physique seraient un exemple - nous pouvons avoir un processus ou un appareil de mesure qui a une variance bien connue (erreur de mesure), donc lorsque vous mesurez un événement particulier, vous pouvez supposer que la variance est la même mais vous peut seulement estimer la vraie moyenne.
Peteris

2
@Peteris: cela a du sens - mais cela ressemble plus au cas que je note , de la variance (de votre instrument) ayant été estimée sur les "échantillons d'étalonnage" précédents. Je m'attendrais à ce qu'une variance théoriquement dérivée sans incertitude (!) Soit différente.
Stephan Kolassa
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.