Probabilité d'intersection à partir d'un échantillonnage multiple de la même population


10

Voici un exemple de cas:

  • J'ai une population de 10 000 articles. Chaque élément a un identifiant unique.
  • Je choisis au hasard 100 articles et enregistre les identifiants
  • J'ai remis les 100 articles dans la population
  • Je choisis à nouveau au hasard 100 articles, enregistre les identifiants et les remplace.
  • Au total, je répète cet échantillonnage aléatoire 5 fois

Quelle est la probabilité que le nombre d'articles apparaisse dans les 5 échantillonnages aléatoires?X

Je ne connais pas très bien les statistiques. Serait-ce correct pour ?X=10

  • Pour chaque échantillonnage, le nombre de combinaisons possibles de 100 éléments sur 10 000 estbinom(10000,100)
  • Sur toutes les combinaisons possibles de 100 éléments, combinaisons contiennent 10 éléments spécifiquesbinom(9990,90)binom(100,10)
  • La probabilité d'avoir 10 éléments spécifiques est(binom(9990,90)binom(100,10))/binom(10000,100)
  • La probabilité calculée à la puissance de 5 représenterait 5 échantillonnages indépendants.

Donc, essentiellement, nous calculons simplement 5 probabilités hypergéométriques indépendantes, puis les multiplions ensemble? J'ai l'impression de manquer une étape quelque part.


3
Si vous répétez quelque chose une fois, cela signifie que vous le faites deux fois en tout. La répétition de quelque chose 5 fois ne signifie-t-elle pas que vous le faites 6 fois?
Glen_b -Reinstate Monica

Réponses:


3

Calculez les chances de manière récursive.

Soit la probabilité que exactement valeurs, , soient sélectionnées dans tous les tirages indépendants de éléments (sans remplacement) à partir d'une population de membres . (Gardons et fixes pour la durée de l'analyse afin qu'ils n'aient pas à être mentionnés explicitement.)x 0 x k s 1 k n k > 0 n kps(x)x0xks1knk>0nk

Soit la probabilité que si exactement les valeurs sont sélectionnées dans les premiers tirages , alors sont sélectionnées dans le dernier tirage. Ensuite, parce qu'il y a sous-ensembles de éléments de ces éléments, et sous-ensembles des éléments restants sont sélectionnés séparément parmi les autres membres de la population,y s - 1 x yps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

La loi de la probabilité totale affirme

ps(x)=y=xkps(xy)ps1(y).

Pour , c'est une certitude que : c'est la distribution de départ.s=1x=k

Le calcul total nécessaire pour obtenir la distribution complète jusqu'à répétitions est . Non seulement c'est assez rapide, l'algorithme est facile. Un écueil qui attend le programmeur imprudent est que ces probabilités peuvent devenir extrêmement petites et dépasser les calculs à virgule flottante. L' implémentation suivante évite cela en calculant les valeurs de dans les colonnes d'un tableau.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

La réponse à la question est obtenue en laissant et . s=5, n=10000=104k=100=102 La sortie est un tableau , mais la plupart des nombres sont si petits que nous pouvons nous concentrer sur un très petit . Voici les quatre premières lignes correspondant à :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

La sortie est

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Les valeurs de étiquettent les lignes tandis que les valeurs de étiquettent les colonnes. La colonne 5 montre la probabilité qu'un élément apparaisse dans les cinq échantillons est minuscule (environ un sur un million) et il n'y a pratiquement aucune chance que deux éléments ou plus apparaissent dans les cinq échantillons.xs

Si vous souhaitez voir à quel point ces chances sont faibles, regardez leurs logarithmes. La base 10 est pratique et nous n'avons pas besoin de beaucoup de chiffres:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

La sortie nous indique combien de zéros il y a après le point décimal:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Les nombres dans la ligne supérieure sont des valeurs de . Par exemple, la probabilité d'exactement trois valeurs apparaissant dans les cinq échantillons est trouvée en calculant , donnant et en effet cela a zéros avant le premier chiffre significatif. À titre de vérification, la dernière valeur est une version arrondie de . (qui compte les chances que le premier échantillon réapparaisse dans les quatre échantillons suivants) est égal àxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Je viens de rencontrer un problème similaire et, même si je ne sais pas non plus si c'est la bonne solution, je l'ai abordé comme ceci:

Vous êtes intéressé par l'occurrence de éléments dans 5 échantillons á éléments de éléments au total. Vous pourriez penser à une urne avec boules blanches et boules noires. balles sont retirées et est la probabilité que vous ayez toutes les boules blanches dans votre set. Si vous faites cela fois (indépendamment), je le multiplierais: .X10010,000X10,000X100phX5p=ph5

Je pourrais même penser à un pas de plus et l'enrouler autour de la distribution binomiale: si vous avez une pièce de monnaie qui se présente avec la probabilité (la probabilité que vous ayez tous les articles dans votre ensemble) et que vous la jetiez fois, quelle est la probabilité d'obtenir têtes? .ph55p=(55)ph5(1ph)55=ph5


0

Quelle est la probabilité que le nombre d'articles apparaisse dans les 5 échantillonnages aléatoires?X

En vous basant sur ce que Hans a dit, vous voulez toujours obtenir les mêmes identifiants dans chaque échantillon de 100 et 100 identifiants parmi les 10 000 restants . La probabilité de le faire pour un échantillon donné est donnée par la fonction hypergéométrique pour succès dans un tirage de 100 sur une population de 10000 avec états de succès possibles: . Pour 5 échantillons, vous prendriez .XXXXXP=(XX)(10000X100X)(10000100)P5

Cependant, cela présuppose connaître les id qui sont partagés, et il y a façons de sélectionner ces id. Votre réponse finale serait donc .X(10000X)X(10000X)P5


Qu'est-ce que " "? Il est impossible de comprendre cette réponse, encore moins de la vérifier, jusqu'à ce que vous révéliez cela! x
whuber

Je ne me souviens pas, comme c'était il y a 3 ans, mais probablement le même X que dans la question?
Hao Ye

D'ACCORD. Mais qu'est-ce qui justifie votre formule? Des vérifications simples, comme le cas (pour lequel votre formule nous dit que la probabilité est , excluant ainsi complètement toute autre possibilité!), Indiquent qu'elle est incorrecte. X=01
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.