Quelle est la probabilité que n personnes d'une liste de m personnes soient dans une sélection aléatoire de x personnes d'une liste de y personnes?


10

Si je sélectionne 232 personnes dans un groupe de 363 personnes sans remplacement, quelle est la probabilité que 2 personnes sur une liste de 12 personnes spécifiques figurent dans cette sélection?

Il s'agit d'un tirage au sort pour une course ultra où il y avait 363 participants pour 232 places. Il existe un argument pour savoir si la sélection était biaisée contre un certain groupe de 12 personnes.

Ma première tentative de calcul était qu'il y avait 232 choix 363 sélections possibles. Le nombre de combinaisons d'une même personne dans la liste des douze est 1 choisissez 12 + 2 choisissez 12 + ... + 11 choisissez 12 + 12 choisissez 12. Ainsi 1 choisissez 12 + 2 choisissez 12 .... / 232 choisissez 363 Ce qui finit par être un nombre très faible qui est clairement trop faible.

Comment puis-je calculer cela?


1
Deux points techniques. Tout d'abord, vous avez maintenant affaire à une probabilité plutôt qu'à une probabilité car le résultat est connu. Deuxièmement, peu importe la probabilité théorique, étant donné que vous avez un résultat. Je pense qu'il serait préférable d'approcher la méthode de sélection: comment les sélections ont-elles été choisies? Vous devez prouver l'exactitude de la méthode et non l'exactitude du résultat.
Michelle

1
On pourrait considérer cela comme une probabilité, Michelle, dans le but d'estimer les probabilités de sélection. Cela ne semble pas être le cas ici.
whuber

Vous devez être prudent lorsque vous utilisez le calcul simple du VR hypergéométrique, car les 12 personnes qui se plaignent ne sont pas sélectionnées au hasard. Ils se plaignent parce qu'ils n'ont pas été sélectionnés.
Guy

Réponses:


10

J'interprète la question comme ceci: supposons que l'échantillonnage ait été prétendument effectué comme si tickets de papier blanc étaient placés dans un pot, chacun étiqueté avec le nom d'une personne, et ont été retirés au hasard après avoir remué soigneusement le contenu du pot. Auparavant, des billets étaient de couleur rouge. Quelle est la probabilité qu'exactement deux des billets sélectionnés soient rouges? Quelle est la chance qu'au plus deux des billets soient rouges?232 1236323212

Une formule exacte peut être obtenue, mais nous n'avons pas besoin de faire beaucoup de travail théorique. Au lieu de cela, nous suivons simplement les chances lorsque les billets sont retirés du pot. Au moment où d'entre eux ont été retirés, que la chance de voir exactement tickets rouges soit écrite . Pour commencer, notez que si (vous ne pouvez pas avoir de tickets rouges avant de commencer) et (il est certain que vous n'avez pas de tickets rouges au départ). Maintenant, lors du tirage le plus récent, soit le ticket était rouge, soit il ne l'était pas. Dans le premier cas, nous avions auparavant une chance de voir exactementi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1billets rouges. Nous avons ensuite passé ensuite tirer un rouge des autres billets, ce qui en fait exactement billets rouge jusqu'à présent. Parce que nous supposons que tous les billets ont des chances égales à chaque étape, notre chance de tirer un rouge de cette manière était donc . Dans l'autre cas, nous avions une chance d'obtenir exactement billets rouges dans les tirages précédents , et la chance de ne pas ajouter un autre billet rouge à l'échantillon lors du prochain tirage était363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1). D'où, en utilisant des axiomes de probabilité de base (à savoir, les chances de deux cas mutuellement exclusifs s'ajoutent et les chances conditionnelles se multiplient),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

Nous répétons ce calcul récursivement, en présentant un tableau triangulaire des valeurs de pour et . Après un petit calcul, nous obtenons et , répondant aux deux versions de la question. Ce sont de petits nombres: peu importe comment vous le regardez, ce sont des événements assez rares (plus rares qu'un sur mille).0 i 12 0 m 232 p ( 2 , 232 ) 0,000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0,000934314p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

En double vérification, j'ai effectué cet exercice avec un ordinateur 1 000 000 de fois. Dans 932 = 0,000932 de ces expériences, 2 tickets rouges ou moins ont été observés. Ceci est extrêmement proche du résultat calculé, car la fluctuation d'échantillonnage de la valeur attendue de 934,3 est d'environ 30 (vers le haut ou vers le bas). Voici comment se fait la simulation dans R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Cette fois, parce que les expériences sont aléatoires, les résultats ont un peu changé: deux tickets rouges ou moins ont été observés dans 948 des millions d'essais. Cela est toujours conforme au résultat théorique.)

La conclusion est qu'il est hautement improbable que deux ou moins des 232 billets soient rouges. Si vous avez en effet un échantillon de 232 personnes sur 363, ce résultat est une forte indication que le modèle de tickets-in-a-jar n'est pas une description correcte de la façon dont l'échantillon a été obtenu. Les explications alternatives incluent (a) les tickets rouges ont été rendus plus difficiles à retirer du pot (un "biais" contre eux) ainsi que (b) les tickets ont été colorés après que l'échantillon a été observé ( espionnage des données post-hoc , ce qui ne pas de biais).

Un exemple d'explication (b) en action serait un jury pour un procès pour meurtre notoire. Supposons qu'il comprenne 363 personnes. Sur ce bassin, le tribunal a interrogé 232 d'entre eux. Un journaliste de journal ambitieux examine méticuleusement les vitae de tout le monde dans la piscine et remarque que 12 des 363 étaient des amateurs de poissons rouges, mais seulement deux d'entre eux avaient été interrogés. Le tribunal est-il partisan des amateurs de poissons rouges? Probablement pas.


NB Dans la simulation, peu importe que ce soient les 12 premiers "tickets" qui soient marqués, car tout l'échantillonnage est effectué de manière aléatoire sans remplacement (via sample). En effet, à chaque itération, il samplemélange soigneusement les tickets à chaque appel avant d'en retirer 232.
whuber

2
Bon Dieu - ce n'était pas vraiment le résultat que j'attendais. Merci pour votre travail approfondi et votre bonne explication. (Curieusement, j'ai en fait suivi une formation en statistiques à l'Université d'Auckland où R a été développé pour la première fois)
Sarge

10

@whuber a donné une explication exhaustive, je veux juste souligner qu'il existe une distribution statistique standard correspondant à ce scénario: la distribution hypergéométrique . Vous pouvez donc obtenir ces probabilités directement dans, disons, R:

Probabilité d'exactement 2 sur 12 sélectionnés:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Probabilité de 2 ou moins sur 12 sélectionnés:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Merci. J'aurais dû mentionner ce lien. La distribution hypergéométrique apparaît classiquement dans les expériences d'échantillonnage-rééchantillonnage. Les 12 personnes spécifiques (mes "tickets rouges") sont comme des poissons qui ont été capturés, marqués et jetés dans la piscine; l'échantillon de 232 est comme l'ensemble des poissons qui sont ensuite capturés. La distribution hypergéométrique décrit les fréquences des poissons recapturés.
whuber

0

Les chances sont beaucoup plus élevées que celles calculées avec la distribution hypergéométrique simple, car le groupe n'est pas choisi au hasard ( "12 poissons sont peints en rouge avant le tirage" ).

D'après la description de la question, nous testons une fraude au tirage. Un groupe spécifique de 12 personnes s'est plaint que seulement 2 d'entre elles ont été sélectionnées, alors que le nombre attendu était de 232/363 ~ 2/3 = 8.

Ce que nous devons vraiment calculer, c'est quelle est la probabilité qu '" aucun groupe de taille 12 n'aura que 2 membres sélectionnés". Les chances qu'au moins un groupe ait 2 ou moins (donc se plaindra de l'équité du tirage) sont beaucoup plus élevées.

Lorsque j'exécute cette simulation et que je vérifie combien d'essais aucun des 30 (= 360/12) groupes n'avait 2 sélections ou moins, j'obtiens environ 2,3% des fois. 1:42 est bas mais pas impossible.

Vous devriez toujours vérifier la procédure du tirage au sort car elle pourrait être biaisée contre un groupe spécifique de personnes. Ils pourraient s'être réunis et avoir reçu une plage du tirage avec moins de probabilité (le premier ou le dernier nombre, par exemple), ou toute autre variable dépendante de la procédure du tirage. Mais si vous ne trouvez aucun défaut dans la procédure, vous pouvez revenir à la cote 1:42 que c'est tout simplement de la malchance pour le groupe.


Un bon point, MAIS (a) tous les groupes possibles de 12 ne présentent certainement pas assez de similitudes avec la matière, et (b) tous les groupes qui ont suffisamment de similitudes avec la matière n'ont pas exactement 12 membres.
zbicyclist

@zbicyclist, je ne prétends pas que le calcul est précis. Je voulais donner un doute raisonnable (comme nous sommes dans le domaine de la loi avec détection de fraude), que le tirage au sort n'est pas coupable.
Guy
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.