La réponse courte:
Fondamentalement, il est plus convaincant d’avoir 600 sur 1000 que six sur 10 car, à égalité de préférences, il est beaucoup plus probable que 6 sur 10 surviennent par hasard.
Faisons l'hypothèse - que la proportion de ceux qui préfèrent les oranges et les pommes est en réalité égale (donc 50% chacun). Appelez cela une hypothèse nulle. Étant donné ces probabilités égales, les probabilités des deux résultats sont les suivantes:
- Sur un échantillon de 10 personnes, il y a 38% de chances d’obtenir au hasard un échantillon de 6 personnes ou plus qui préfèrent les oranges (ce qui n’est pas si improbable).
- Avec un échantillon de 1 000 personnes, il y a moins de 1 chance sur 1 000 que 600 ou plus des 1 000 personnes préfèrent les oranges.
(Pour simplifier, je suppose une population infinie à partir de laquelle prélever un nombre illimité d’échantillons).
Une simple dérivation
Une façon de parvenir à ce résultat est simplement de lister les manières potentielles de combiner les gens dans nos échantillons:
Pour dix personnes c'est facile:
Envisagez de prélever au hasard des échantillons de 10 personnes parmi une population infinie de personnes ayant des préférences égales pour les pommes ou les oranges. Avec des préférences égales, il est facile de simplement énumérer toutes les combinaisons possibles de 10 personnes:
Voici la liste complète.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r est le nombre de résultats (les personnes qui préfèrent les oranges), C est le nombre de façons dont un grand nombre de personnes peuvent préférer des oranges et p est la probabilité discrète résultante que nombre de ces personnes préfèrent des oranges de notre échantillon.
(p est juste C divisé par le nombre total de combinaisons. Notez qu’il existe 1024 façons d’arranger ces deux préférences au total (c’est-à-dire 2 à la puissance 10).
- Par exemple, il n'y a qu'un seul moyen (un échantillon) pour 10 personnes (r = 10) de préférer toutes les oranges. Il en va de même pour toutes les personnes préférant des pommes (r = 0).
- Il existe 10 combinaisons différentes, de sorte que neuf d'entre elles préfèrent les oranges. (Une personne différente préfère les pommes dans chaque échantillon).
- Il y a 45 échantillons (combinaisons) où 2 personnes préfèrent des pommes, etc., etc.
(En général, nous parlons de n C r combinaisons de résultats r provenant d'un échantillon de n personnes. Il existe des calculatrices en ligne que vous pouvez utiliser pour vérifier ces chiffres.)
Cette liste nous permet de nous donner les probabilités ci-dessus en utilisant simplement la division. Dans l'échantillon, il y a 21% de chances que 6 personnes préfèrent les oranges (210 des 1024 combinaisons). La probabilité d'obtenir six personnes ou plus dans notre échantillon est de 38% (somme de tous les échantillons de six personnes ou plus, soit 386 combinaisons).
Graphiquement, les probabilités ressemblent à ceci:
Avec des nombres plus importants, le nombre de combinaisons potentielles augmente rapidement.
Il y a 1 048 576 échantillons possibles pour un échantillon de seulement 20 personnes, tous avec la même probabilité. (Remarque: je n'ai montré qu'une combinaison sur deux ci-dessous).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Il n'y a toujours qu'un seul échantillon où les 20 personnes préfèrent les oranges. Les combinaisons qui présentent des résultats mitigés sont beaucoup plus probables, tout simplement parce qu'il existe beaucoup plus de façons de combiner les personnes des échantillons.
Les échantillons biaisés sont beaucoup plus improbables, simplement parce qu'il y a moins de combinaisons de personnes pouvant donner ces échantillons:
Avec seulement 20 personnes dans chaque échantillon, la probabilité cumulée d'avoir 60% ou plus (12 ou plus) personnes dans notre échantillon préférant les oranges tombe à seulement 25%.
On voit que la distribution de probabilité devient plus mince et plus grande:
Avec 1000 personnes, les chiffres sont énormes
Nous pouvons étendre les exemples ci-dessus à des échantillons plus volumineux (mais le nombre augmente trop rapidement pour pouvoir lister toutes les combinaisons), mais j'ai calculé les probabilités dans R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
La probabilité cumulée que 600 ou plus des 1000 personnes préfèrent les oranges est de seulement 1,364232e-10.
La distribution de probabilité est maintenant beaucoup plus concentrée autour du centre:
[
(Par exemple, pour calculer la probabilité d’exactement 600 personnes sur 1 000 préférant des oranges en R, utilisez dbinom(600, 1000, prob=0.5)
4.633908e-11, et la probabilité de 600 personnes ou plus est 1-pbinom(599, 1000, prob=0.5)
égale à 1,364232e-10 (moins de 1 sur un milliard).