J'interprète la question comme ceci: supposons que l'échantillonnage ait été prétendument effectué comme si tickets de papier blanc étaient placés dans un pot, chacun étiqueté avec le nom d'une personne, et ont été retirés au hasard après avoir remué soigneusement le contenu du pot. Auparavant, des billets étaient de couleur rouge. Quelle est la probabilité qu'exactement deux des billets sélectionnés soient rouges? Quelle est la chance qu'au plus deux des billets soient rouges?232 1236323212
Une formule exacte peut être obtenue, mais nous n'avons pas besoin de faire beaucoup de travail théorique. Au lieu de cela, nous suivons simplement les chances lorsque les billets sont retirés du pot. Au moment où d'entre eux ont été retirés, que la chance de voir exactement tickets rouges soit écrite . Pour commencer, notez que si (vous ne pouvez pas avoir de tickets rouges avant de commencer) et (il est certain que vous n'avez pas de tickets rouges au départ). Maintenant, lors du tirage le plus récent, soit le ticket était rouge, soit il ne l'était pas. Dans le premier cas, nous avions auparavant une chance de voir exactementi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mip(i,m)p(i,0)=0i>0p(0,0)=1p(i−1,m−1)i−1billets rouges. Nous avons ensuite passé ensuite tirer un rouge des autres billets, ce qui en fait exactement billets rouge jusqu'à présent. Parce que nous supposons que tous les billets ont des chances égales à chaque étape, notre chance de tirer un rouge de cette manière était donc . Dans l'autre cas, nous avions une chance d'obtenir exactement billets rouges dans les tirages précédents , et la chance de ne pas ajouter un autre billet rouge à l'échantillon lors du prochain tirage était363−m+1i(12−i+1)/(363−m+1)p(i,m−1)im−1(363−m+1−12+i)/(363−m+1). D'où, en utilisant des axiomes de probabilité de base (à savoir, les chances de deux cas mutuellement exclusifs s'ajoutent et les chances conditionnelles se multiplient),
p(i,m)=p(i−1,m−1)(12−i+1)+p(i,m−1)(363−m+1−12+i)363−m+1.
Nous répétons ce calcul récursivement, en présentant un tableau triangulaire des valeurs de pour et . Après un petit calcul, nous obtenons et , répondant aux deux versions de la question. Ce sont de petits nombres: peu importe comment vous le regardez, ce sont des événements assez rares (plus rares qu'un sur mille).0 ≤ i ≤ 12 0 ≤ m ≤ 232 p ( 2 , 232 ) ≈ 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0,000934314p(i,m)0≤i≤120≤m≤232p(2,232)≈0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
En double vérification, j'ai effectué cet exercice avec un ordinateur 1 000 000 de fois. Dans 932 = 0,000932 de ces expériences, 2 tickets rouges ou moins ont été observés. Ceci est extrêmement proche du résultat calculé, car la fluctuation d'échantillonnage de la valeur attendue de 934,3 est d'environ 30 (vers le haut ou vers le bas). Voici comment se fait la simulation dans R:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
Cette fois, parce que les expériences sont aléatoires, les résultats ont un peu changé: deux tickets rouges ou moins ont été observés dans 948 des millions d'essais. Cela est toujours conforme au résultat théorique.)
La conclusion est qu'il est hautement improbable que deux ou moins des 232 billets soient rouges. Si vous avez en effet un échantillon de 232 personnes sur 363, ce résultat est une forte indication que le modèle de tickets-in-a-jar n'est pas une description correcte de la façon dont l'échantillon a été obtenu. Les explications alternatives incluent (a) les tickets rouges ont été rendus plus difficiles à retirer du pot (un "biais" contre eux) ainsi que (b) les tickets ont été colorés après que l'échantillon a été observé ( espionnage des données post-hoc , ce qui ne pas de biais).
Un exemple d'explication (b) en action serait un jury pour un procès pour meurtre notoire. Supposons qu'il comprenne 363 personnes. Sur ce bassin, le tribunal a interrogé 232 d'entre eux. Un journaliste de journal ambitieux examine méticuleusement les vitae de tout le monde dans la piscine et remarque que 12 des 363 étaient des amateurs de poissons rouges, mais seulement deux d'entre eux avaient été interrogés. Le tribunal est-il partisan des amateurs de poissons rouges? Probablement pas.