Analyse des billes et des bacs dans le régime


23

Supposons que nous jetons m boules dans n bacs, où mn . Soit Xi le nombre de billes se terminant dans le bac i , Xmax le bac le plus lourd, Xmin le bac le plus léger et Xsecmax le deuxième bac le plus lourd. En gros, , et donc nous nous attendons à pour deux fixes . En utilisant une union liée, nous nous attendonsXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n) ; vraisemblablement, nous pouvons obtenir une limite inférieure correspondante en considérantn/2 paires de bacs disjoints. Cet argument (pas complètement formel) nous amène à penser que l'écart entre et est avec une forte probabilité.XmaxXminΘ(mlogn/n)

Je m'intéresse à l'écart entre et . L'argument décrit ci-dessus montre que avec une forte probabilité, mais le facteur \ sqrt {\ log n} semble étranger . Connaît-on la distribution de X_ \ max - X _ {\ mathrm {sec-max}} ?XmaxXsecmaxXmaxXsecmax=O(mlogn/n)lognXmaxXsecmax

Plus généralement, supposons que chaque balle soit associée à un score non négatif pour chaque bac, et nous nous intéressons au score total de chaque bac après avoir lancé balles. Le scénario habituel correspond aux scores de la forme . Supposons que la distribution de probabilité des scores soit invariante sous permutation des cases (dans le scénario habituel, cela correspond au fait que toutes les cases sont équiprobables). Étant donné la distribution des scores, nous pouvons utiliser la méthode du premier paragraphe pour obtenir une bonne borne sur . La limite contiendra un facteur dem(0,,0,1,0,,0)XmaxXminlogn qui provient d'une borne d'union (via les probabilités de queue d'une variable normale). Ce facteur peut-il être réduit si nous souhaitons délimiter ?XmaxXsecmax


Chaque score est en [0,1]?
Neal Young

Cela n'a pas vraiment d'importance, vous pouvez toujours le mettre à l'échelle pour qu'il soit dans . [0,1]
Yuval Filmus

Réponses:


21

Réponse: .Θ(mnlogn)

En appliquant une version multidimensionnelle du théorème de la limite centrale, nous obtenons que le vecteur a une distribution gaussienne asymptotiquement multivariée avec V a r [ X i ] = m ( 1(X1,,Xn) et Cov(Xi,Xj)=-m/n2. Nous supposerons ci-dessous queXestun vecteur gaussien (et pas seulement approximativement un vecteur gaussien). Ajoutons une variable aléatoire gaussienneZde variancem/n2à tous lesXi(Zest indépendant de tous lesXi). Autrement dit, soit ( Y 1 Y 2

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi On obtient un vecteur gaussien(Y1,,Yn). Maintenant, chaqueYia une variancem/n: Var[Yi]=Var[Xi]+ 2 C o
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
(Y1,,Yn)Yim/n et tous lesYisont indépendants: Cov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( X j , Z )
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

Notez que . Ainsi notre problème d'origine est équivalent au problème de trouver Y m a x - Y s e c - m a x . Commençons par simplifier le cas où tous les Y i ont la variance 1 .YiYj=XiXjYmaxYsecmaxYi1

Problème. On nous donne rv gaussien indépendant γ 1 , , γ n de moyenne μ et de variance 1 . Estimer l'espérance de γ m a x - γ s e c - m a x .nγ1,,γnμ1γmaxγsecmax

Réponse: Θ(1logn) .

Informal Proof. Here is an informal solution to this problem (it's not hard to make it formal). Since the answer does not depend on the mean, we assume that μ=0. Let Φ¯(t)=Pr[γ>t], where γN(0,1). We have (for moderately large t),

Φ¯(t)12πte12t2.

Note that

  • Φ(γi) are uniformly and independently distributed on [0,1],

  • Φ(γmax) is the smallest among Φ(γi),

  • Φ(γsecmax) is the second smallest among Φ(γi).

Φ(γmax)1/nΦ(γmax)2/nΦ¯(t), we get that

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

Thus γmax2γsecmax2 is Θ(1) w.h.p. Note that γmaxγsecmax=Θ(logn). We have,

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

We get that

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

The same argument goes through when we have arbitrary scores. It shows that

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
Thanks! I'll remember to try the multivariate Gaussian approximation next time.
Yuval Filmus

5
Yury, you wrote "Let us add a Gaussian vector Z with variance m/n2 to all Xi. We get a Gaussian vector (Y1,,Yn). Now each Yi has variance m/n and all Yi are not correlated... Note that YiYj=XiXj." Can you expand on this part? Is Zi=Zj? If the Xi's are dependent, and the Zi's are independent (or uniformly the same), how can the Yi's be independent? (Seems like a neat trick but I don't understand it.) Thanks.
Neal Young

1
@NealYoung, yes, if we have variables X1,,Xn with negative pairwise correlation and all covariances Cov(Xi,Xj) are equal, then we can add a single new random variable Z to all Xi such that the sums are independent. Also, if the variables have positive correlation and again all covariances Cov(Xi,Xj) are equal then we can subtract a single r.v. Z from all of them so that all the differences are independent; but now Z is not independent from Xi but rather Z=α(X1++Xn) for some scaling parameter α.
Yury

1
Ah I see. at least algebraically, all it rests on is the pairwise independence of Z and each Xi. very cool.
Suresh Venkat

1
This argument now appears (with attribution) in an EC'14 paper: dl.acm.org/citation.cfm?id=2602829.
Yuval Filmus

13

For your first question, I think you can show that w.h.p. XmaxXsec-max is

o(mnlog2lognlogn).
Note that this is o(m/n).

Compare your random experiment to the following alternative: Let X1 be the maximum load of any of the first n/2 buckets. Let X2 be the maximum load of any of the last n/2 buckets.

On consideration, |X1X2| is an upper bound on XmaxXsecmax. Also, with probability at least one half, |X1X2|=XmaxXsecmax. So, speaking roughly, XmaxXsecmax is distributed similarly to |X1X2|.

To study |X1X2|, note that with high probability m/2±O(m) balls are thrown into the first n/2 bins, and likewise for the last n/2 bins. So X1 and X2 are each distributed essentially like the maximum load when throwing m=m/2±o(m) balls into n=n/2 bins.

This distribution is well-studied and, luckily for this argument, is tightly concentrated around its mean. For example, if mnlog3n, then with high probability X1 differs from its expectation by at most the quantity displayed at the top of this answer [Thm. 1]. (Note: this upper bound is, I think, loose, given Yuri's answer.) Thus, with high probability X1 and X2 also differ by at most this much, and so Xmax and Xmaxsec differ by at most this much.

Conversely, for a (somewhat weaker) lower bound, if, for any t, say, Pr[|X1X2|t]3/4, then Pr[XmaxXsec-maxt] is at least

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
which (by the naive union bound) is at least 1(1/4)(1/2)=1/4. I think this should give you (for example) the expectation of XmaxXsec-max within a contant factor.

Looking at Thm. 1, the difference from the expectation is O((m/n)loglogn), and not what you wrote. That's still much better than O((m/n)logn).
Yuval Filmus

By Thm. 1 (its 3rd case), for any ϵ>0, with probability 1o(1), the maximum in any bin (m balls in n bins) is
mn+2mlognn1(1±ϵ)loglogn2logn.
By my math (using 1δ=1O(δ)), the ±ϵ term expands to an additive absolute term of
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
What am I doing wrong?
Neal Young

Ah - I guess you're right. I subtracted inside the square root and that's how I got my figure.
Yuval Filmus
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.