La seule façon de connaître la variance de la population est de mesurer la population entière.
Cependant, il n'est souvent pas possible de mesurer une population entière; cela nécessite des ressources, notamment de l'argent, des outils, du personnel et un accès. Pour cette raison, nous échantillonnons les populations; qui mesure un sous-ensemble de la population. Le processus d'échantillonnage doit être conçu avec soin et dans le but de créer un échantillon de population représentatif de la population; donnant deux considérations clés - taille de l'échantillon et technique d'échantillonnage.
Exemple de jouet: Vous souhaitez estimer la variance du poids pour la population adulte de Suède. Il y a environ 9,5 millions de Suédois, il est donc peu probable que vous puissiez tous les mesurer. Par conséquent, vous devez mesurer un échantillon de population à partir duquel vous pouvez estimer la véritable variance intra-population.
Vous vous dirigez pour échantillonner la population suédoise. Pour ce faire, vous vous tenez dans le centre-ville de Stockholm et vous vous trouvez juste devant la chaîne fictive populaire de hamburgers suédois Burger Kungen . En fait, il pleut et il fait froid (ce doit être l'été) alors vous vous tenez à l'intérieur du restaurant. Ici, vous pesez quatre personnes.
Il y a de fortes chances que votre échantillon ne reflète pas très bien la population suédoise. Ce que vous avez, c'est un échantillon de personnes à Stockholm, qui sont dans un restaurant de hamburgers. Il s'agit d'une mauvaise technique d'échantillonnage, car elle risque de biaiser le résultat en ne donnant pas une représentation juste de la population que vous essayez d'estimer. De plus, vous avez un petit échantillon, vous avez donc un risque élevé de choisir quatre personnes qui sont dans les extrêmes de la population; soit très léger ou très lourd. Si vous avez échantillonné 1 000 personnes, vous êtes moins susceptible de provoquer un biais d'échantillonnage; il est beaucoup moins probable de choisir 1000 personnes inhabituelles que de choisir quatre personnes inhabituelles. Une taille d'échantillon plus grande vous donnerait au moins une estimation plus précise de la moyenne et de la variance du poids parmi les clients de Burger Kungen.
L'histogramme illustre l'effet de la technique d'échantillonnage, la répartition en gris pourrait représenter la population de la Suède qui ne mange pas à Burger Kungen (moyenne 85 kg), tandis que le rouge pourrait représenter la population des clients de Burger Kungen (moyenne 100 kg) , et les tirets bleus pourraient être les quatre personnes que vous échantillonnez. Une technique d'échantillonnage correcte devrait peser la population équitablement, et dans ce cas ~ 75% de la population, donc 75% des échantillons mesurés, ne devraient pas être des clients de Burger Kungen.
Il s'agit d'un problème majeur avec de nombreuses enquêtes. Par exemple, les personnes susceptibles de répondre aux enquêtes de satisfaction des clients ou aux sondages d'opinion lors des élections ont tendance à être représentées de manière disproportionnée par ceux qui ont des opinions extrêmes; les personnes ayant des opinions moins fortes ont tendance à être plus réservées à les exprimer.
Le point du test d'hypothèse est ( pas toujours ), par exemple, de tester si deux populations diffèrent l'une de l'autre. Par exemple, les clients de Burger Kungen pèsent-ils plus que les Suédois qui ne mangent pas chez Burger Kungen? La capacité de tester cela avec précision dépend d'une technique d'échantillonnage appropriée et d'une taille d'échantillon suffisante.
Code R à tester pour que tout cela se produise:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Résultats:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024