Lancer des balles dans des bacs, estimer une limite inférieure de sa probabilité


14

Ce n'est pas un devoir, même si cela ressemble. Toute référence est la bienvenue. :-)

Scénario: Il y a balles n différentes et bacs n différents (étiquetés de 1 à n , de gauche à droite). Chaque balle est lancée indépendamment et uniformément dans les bacs. Soit f(i) le nombre de billes dans le i ~ ième casier. Soit Ei l'événement suivant.

Pour chaque ji , kjf(k)j1

Autrement dit, les premiers j bacs (la plus à gauche j bacs) contient moins de j billes, pour chaque ji .

Question: Estimer i<nPr(Ei) , en termes de n ? Quand n va à l'infini. Une limite inférieure est préférable. Je ne pense pas qu'une formule facilement calculable existe.

Pr(En)=0limnPr(E1)=limn(n1n)n=1ePr(En)=0

Ma conjecture: je suppose que , quand va à l'infini. J'ai considéré les premiers éléments de la somme.n ln ni<nPr(Ei)=lnnnlnn


1
Il ressemble à un sous-dossier du problème de l'anniversaire ..
Gopi

@Gopi Je ne peux pas me convaincre que ma question est un problème d'anniversaire restreint. Pouvez-vous l'expliquer explicitement? Merci beaucoup. Remarque: La contrainte porte sur la somme des billes dans les premiers j cases, pas sur le nombre de cases sur un emplacement spécifique.
Peng Zhang

En effet, ma mauvaise, après avoir relu l'article de Wikipédia sur le problème d'anniversaire, j'ai réalisé que je considérais un autre problème adapté du problème d'anniversaire.
Gopi

2
Quelques idées incorrectes ... Alors réfléchissez à comment encoder un état: lisez le formulaire des bacs de gauche à droite. Si le premier bac contient i boules, sortez une séquence de i, suivie d'un 0. Faites-le pour tous les bacs de gauche à droite. Votre codition semble être que vous vous intéressez au plus grand i tel que cette chaîne binaire (qui a n zéros et n uns) pour la première fois elle en contienne plus que zéros. Maintenant, laisse faire un saut du destin et de générer 0 et 1 avec une probabilité égale 1/2 . (Cela peut être complètement absurde). Ce problème est lié aux nombres catalans et aux mots Dyck. Et...???
Sariel Har-Peled

4
Je ne vois pas dans votre définition pourquoi il est important que les boules soient différentes. De plus, l'intégration de chaîne prend en compte le fait que les bacs sont différents.
Sariel Har-Peled

Réponses:


11

EDIT: (2014-08-08) Comme le souligne Douglas Zare dans les commentaires, l'argument ci-dessous, en particulier le «pont» entre les deux probabilités, est incorrect. Je ne vois pas de moyen simple de le réparer. Je vais laisser la réponse ici car je pense qu'elle fournit encore une certaine intuition, mais sachez que n'est pas vrai en général.

Pr(Em)l=1mPr(Fl)

Ce ne sera pas une réponse complète, mais j'espère qu'elle contiendra suffisamment de contenu pour que vous ou quelqu'un de plus compétent que moi puisse le terminer.

Considérons la probabilité que exactement boules tombent dans les l (des n ) premiers bacs:kln

(nk)(ln)k(nln)nk

Appelez la probabilité que moins de boules tombent dans les 1 premiers bacs F l :llFl

Pr(Fl)=k=0l1(nk)(ln)k(nln)nk

La probabilité que l'événement, , ci-dessus se produise est moindre que si nous considérions chacun des événements F l se produisant indépendamment et en une seule fois. Cela nous donne un pont entre les deux:ElFl

Pr(Em)l=1mPr(Fl)=l=1m(k=1l1(nk)(lnk)(nln)nk)=l=1mF(l1;n,ln)

est lafonction de distribution cumulative pour la distribution binomialeavecp=lF(l1;n,ln) . Il suffit de lire quelques lignes sur la page Wikipedia et de noter que(l-1pn), nous pouvons utiliserl'inégalité de Chernoffpour obtenir:p=ln(l1pn)

Pr(Em)l=1mexp[12l]=exp[12l=1m1l]=exp[12Hm]exp[12(12m+ln(m)+γ)]

est la m ième harmonique Nombre , γ est la constante d' Euler-Mascheroni et l'inégalité de la H m est tirée de la page liée MathWorld de Wolfram.HmmγHm

Ne pas se soucier du facteur, ce finalement nous donne:e1/4m

Pr(Em)eγ/2m

Vous trouverez ci-dessous un diagramme log-log d'une moyenne de 100 000 instances pour en fonction de m avec la fonction e - γ / 2n=2048m également tracé pour référence:eγ/2m

entrez la description de l'image ici

Bien que les constantes soient désactivées, la forme de la fonction semble être correcte.

Vous trouverez ci-dessous un diagramme log-log pour faire varier chaque point étant la moyenne de 100 000 instances en fonction de m :nm

entrez la description de l'image ici

Enfin, pour arriver à la question initiale à laquelle vous vouliez répondre, car nous savons que nous avons:Pr(Em)1m

i<nPr(Ei)n

Et comme vérification numérique, ci-dessous est un tracé log-log de la somme, , par rapport à la taille de l'instance, n . Chaque point représente la moyenne de la somme de 100 000 instances. La fonction x une / 2 a été tracée à titre de référence:Snx1/2

entrez la description de l'image ici

Bien que je ne vois pas de lien direct entre les deux, les astuces et la forme finale de ce problème ont beaucoup de points communs avec le problème d'anniversaire comme initialement supposé dans les commentaires.


4
Comment obtenez-vous ? Par exemple, pour n = 100 , je calcule que P r ( E 2 ) = 0,267 946 > 0,14761 = P r ( F 1 ) P r ( F 2 ) .Pr(E2)Pr(F1)×Pr(F2)n=100Pr(E2)=0.267946>0.14761=Pr(F1)Pr(F2).Si on vous dit que le premier bac est vide, cela rend-il plus ou moins probable que les deux premiers bacs contiennent au plus balle? C'est plus probable, donc P r ( F 1 ) P r ( F 2 ) est une sous-estimation. 1Pr(F1)Pr(F2)
Douglas Zare

@DouglasZare, j'ai vérifié vos calculs, vous avez raison. Me sert bien de ne pas être plus rigoureux.
user834

15

La réponse est .Θ(n)

Commençons par calculer .En1

Supposons que nous jetons balles dans n cases, et examinons la probabilité qu’une case contienne exactement k balles. Cette probabilité vient de la distribution de Poisson, et comme n va à la probabilité qu'il y ait exactement k boules dans un bac donné est 1nnknk.1e1k!

Maintenant, regardons une autre façon de distribuer les balles dans les bacs. Nous jetons un certain nombre de boules dans chaque bac choisi dans la distribution de Poisson et conditionnons qu'il y ait boules au total. Je prétends que cela donne exactement la même distribution que de lancer n balles dans n cases. Pourquoi? Il est facile de voir que la probabilité d'avoir k j boules dans le j ième casier est proportionnelle à n j = 1 1nnnkjjdans les deux distributions.j=1n1kj!

Considérons donc une marche aléatoire où à chaque étape, vous passez de à t + 1 - k avec probabilité 1tt+1k. Je prétends que si vous conditionnez à ce que cette marche aléatoire revienne à 0 aprèsnétapes, la probabilité que ce hasard reste toujours supérieur à0est la probabilité que l'OP veuille calculer. Pourquoi? Cette hauteur de cette marche aléatoire aprèssétapes estsmoins le nombre de balles dans lesspremiersbacs.1e1k!n0sss

Si nous avions choisi une marche aléatoire avec une probabilité de de monter ou descendre1à chaque étape, ce serait leproblème du scrutinclassique, pour lequel la réponse est1121 . Il s'agit d'une variante du problème du scrutin qui a été étudié (voircet article), et la réponse est toujoursΘ(112(n1). Je ne sais pas s'il existe un moyen facile de calculer la constante pour leΘ(1Θ(1n)pour ce cas.Θ(1n)

Le même article montre que lorsque la marche aléatoire est conditionnée pour se terminer à la hauteur , la probabilité de rester toujours positif est Θ ( k / n ) tant que k = O ( kΘ(k/n). Ce fait nous permettra d'estimerEspour touts.k=O(n)Ess

Je vais être un peu vague pour le reste de ma réponse, mais des techniques de probabilité standard peuvent être utilisées pour rendre cela rigoureux.

Nous savons que lorsque va à , cette marche aléatoire converge vers un pont brownien, c'est-à-dire un mouvement brownien conditionné pour commencer et se terminer à 0 . D'après les théorèmes de probabilité générale, pour ϵ n < s < ( 1 - ϵ ) n , la marche aléatoire est à peu près Θ ( n0ϵn<s<(1ϵ)nloin de l'axe desx. Dans le cas où il a une hauteurt>0, la probabilité qu'il soit resté au-dessus de0pendant tout le temps avantsestΘ(t/s). Puisquetest susceptible d'êtreΘ(Θ(n)xt>00sΘ(t/s)tlorsques=Θ(n), nous avonsEsΘ(1/Θ(n)s=Θ(n).EsΘ(1/n)


4

[Edit 2014-08-13: Grâce à un commentaire de Peter Shor, j'ai changé mon estimation du taux de croissance asymptotique de cette série.]

Ma conviction est que croît comme limni<nPr(Ei) . Je n'ai pas de preuve mais je pense avoir un argument convaincant.n

Soit une variable aléatoire qui donne le nombre de boules dans le bac i . Soit B i , j = j k = i B k une variable aléatoire qui donne le nombre total de billes dans les bacs i à j inclus.Bi=f(i)iBi,j=k=ijBkij

Vous pouvez maintenant écrire pour tout j < i . Pour cela, introduisons les fonctions π et g i .Pr(Ei)=b<jPr(EjB1,j=b)Pr(EiEjB1,j=b)j<iπgi

π(j,k,b)=Pr(Bj=kB1,j1=b)=(nbk)(1nj+1)k(njnj+1)nbk

gi(j,k,b)=Pr(EiBj,ikEj1B1,j1=b)={0k<01k>=0j>il=0jb1π(j,l,b)gi(j+1,kl,b+l)otherwise

We can write Pr(Ei) in terms of gi:

Pr(Ei)=gi(1,i1,0)

Now, it's clear from the definition of gi that

Pr(Ei)=(ni)ni+1nnhi(n)

where hi(n) is a polynomial in n of degree i1. This makes some intuitive sense too; at least ni+1 balls will have to be put in one of the (i+1)th through nth bins (of which there are ni).

Since we're only talking about Pr(Ei) when n, only the lead coefficient of hi(n) is relevant; let's call this coefficient ai. Then

limnPr(Ei)=aiei

How do we compute ai? Well, this is where I'll do a little handwaving. If you work out the first few Ei, you'll see that a pattern emerges in the computation of this coefficient. You can write it as

ai=μi(1,i1,0)
where
μi(j,k,b)={0k<01k>=0i>jl=0jb11l!μi(j+1,kl,b+l)otherwise

Now, I wasn't able to derive a closed-form equivalent directly, but I computed the first 20 values of Pr(Ei):

N       a_i/e^i
1       0.367879
2       0.270671
3       0.224042
4       0.195367
5       0.175467
6       0.160623
7       0.149003
8       0.139587
9       0.131756
10      0.12511
11      0.119378
12      0.114368
13      0.10994
14      0.105989
15      0.102436
16      0.0992175
17      0.0962846
18      0.0935973
19      0.0911231
20      0.0888353

Now, it turns out that

Pr(Ei)=iii!ei=Pois(i;i)

where Pois(i;λ) is the probability that a random variable X has value i when it's drawn from a Poisson distribution with mean λ. Thus we can write our sum as

limni=1nPr(Ei)=x=1xxx!ex

Wolfram Alpha tells me this series diverges. Peter Shor points out in a comment that Stirling's approximation allows us to estimate Pr(Ei):

limnPr(Ex)=xxx!ex12πx

Let

ϕ(x)=12πx

Since

  • limxϕ(x)ϕ(x+1)=1
  • ϕ(x) is decreasing
  • 1nϕ(x)dx as n

our series grows as 1nϕ(x)dx (See e.g. Theorem 2). That is,

i=1nPr(Ei)=Θ(n)

1
Wolfram Alpha is wrong. Use Stirling's formula. It says that, xx/(x!ex)1/2πx.
Peter Shor

@PeterShor Thanks! I've updated the conclusion thanks to your insight, and now I am in agreement with the other two answers. It's interesting to me to see 3 quite different approaches to this problem.
ruds

4

Exhaustively checking the first few terms (by examining all n^n cases) and a bit of lookup shows that the answer is https://oeis.org/A036276 / nn. This implies that the answer is n12π2.

More exactly, the answer is:

n!2nnk=0n2nkk!
and there is no closed-form answer.

Oeis is pretty awesome
Thomas Ahle
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.