Existe-t-il une formule pour une forme générale du problème du collecteur de coupons?

Je suis tombé sur le problème des collecteurs de coupons et essayais de trouver une formule pour une généralisation.

S'il y a objets distincts et que vous voulez recueillir au moins exemplaires de chacun une d'entre eux (où ), quelle est l'attente du nombre d' objets au hasard , vous devriez acheter ?. Le problème normal du collecteur de coupons a et . $N$ $k$ $m$ $m \le N$ $m = N$ $k = 1$

Il y a 12 figurines LEGO différentes dans une collection. Je veux collecter 3 exemplaires de chacun des 10 (10) chiffres. Je peux les acheter au hasard un à la fois. Combien devrais-je m'attendre à acheter avant d'avoir 3 exemplaires de chacun d'eux sur 10?

— nickponline
source

Je ne me souviens pas avoir vu une formule pour cette généralisation particulière, mais pour une question spécifique unique comme celle-ci, j'aurais tendance à utiliser la simulation.

— Glen_b -Reinstate Monica

Ce n'est pas facile à calculer, mais cela peut être fait, à condition que $\binom{m+k}{k}$ ne soit pas trop grand. (Ce nombre compte les états possibles que vous devez suivre lors de la collecte des coupons.)

Commençons par une simulation pour avoir une idée de la réponse. Ici, j'ai collecté des millions de figurines LEGO. La ligne noire dans ce graphique suit les fréquences du nombre d'achats nécessaires pour collecter au moins trois des dix chiffres différents.

La bande grise est un intervalle de confiance bilatéral d'environ 95% pour chaque comptage. En dessous, il y a une courbe rouge: c'est la vraie valeur.

Pour obtenir les vraies valeurs, tenez compte de la situation lorsque vous collectez des chiffres, dont il existe types possibles et que vous souhaitez collecter au moins de types différents. La seule information dont vous avez besoin pour garder une trace est le nombre de chiffres que vous n'avez pas vu, le nombre que vous avez vu une seule fois, le nombre que vous avez vu deux fois et le nombre que vous avez vu trois fois ou plus . Nous pouvons représenter cela commodément comme un monôme où les sont les associés, index de à . En général, nous utiliserions des monômes de la forme $n=12$ $k=3$ $m=10$ $x_0^{i_0} x_1^{i_1} x_2^{i_2} x_3^{i_3}$ $i_j$ $k=0$ $k=t$ $\prod_{j=0}^k x_j^{i_j}$ .

Lors de la collecte d'un nouvel objet aléatoire, ce sera l'un des objets invisibles avec la probabilité , l'un des objets vus une seule fois avec la probabilité , et ainsi de suite. Le résultat peut être exprimé comme une combinaison linéaire de monômes, $i_0$ $i_0/n$ $i_1/n$

x_{0}^{i_{0}} x_{1}^{i_{1}} x_{2}^{i_{2}} x_{3}^{i_{3}} \to \frac{1}{n} (i_{0} x_{0}^{i_{0} - 1} x_{1}^{i_{1} + 1} x_{2}^{i_{2}} x_{3}^{i_{3}} + \dots + i_{3} x_{0}^{i_{0}} x_{1}^{i_{1}} x_{2}^{i_{2} - 1} x_{3}^{i_{3}}) .

$x_0^{i_0} x_1^{i_1} x_2^{i_2} x_3^{i_3}\to \frac{1}{n}\left(i_0 x_0^{i_0-1}x_1^{i_1+1}x_2^{i_2}x_3^{i_3} + \cdots + i_3 x_0^{i_0}x_1^{i_1}x_2^{i_2-1}x_3^{i_3}\right).$

Ceci est le résultat de l'application de l'opérateur différentiel linéaire au monôme. Evidemment, des applications répétées à l'état initial donneront un polynôme , ayant au plus termes, où le coefficient de est la chance d'être dans l'état indiqué par ses exposants. Il suffit de se concentrer sur les termes en avec : la somme de leurs coefficients sera la chance d'avoir terminé la collecte des coupons. L'ensemble du calcul nécessite donc jusqu'à $(x_1 D_{x_0} + x_2 D_{x_1} + x_3 D_{x_2} + x_3 D_{x_3})/n$ $x_0^{12}=x_0^n$ $p$ $\binom{n+k}{k}$ $\prod_{j=0}^k x_j^{i_j}$ $p$ $i_3 \ge t$ $(m+1)\binom{n+k}{k}$ calculs faciles à chaque étape, répétés autant de fois que nécessaire pour être presque certain de réussir la collecte.

L'expression de ce processus permet d'exploiter l'efficacité des systèmes d'algèbre informatique. Voici, par exemple, une solution générale de Mathematica pour calculer les chances jusqu'à tirages. Cela omet certaines possibilités, mais leurs chances totales sont inférieures à , ce qui nous donne une image presque complète de la distribution. $6nk=216$ $10^{-17}$

n = 12;
threshold = 10;
k = 3;

(* Draw one object randomly from an urn with `n` of them *)
draw[p_] := 
  Expand[Sum[Subscript[x, i] D[#, Subscript[x, i - 1]], {i, 1, k}] + 
      Subscript[x, k] D[#, Subscript[x, k]] & @ p];

(* Find the chance that we have collected at least `k` each of `threshold` objects *)
f[p_] := Sum[
  Coefficient[p, Subscript[x, k]^t] /. 
   Table[Subscript[x, i] -> 1, {i, 0, k - 1}], {t, threshold, n}]

(* Compute the chances for a long series of draws *)
q = f /@ NestList[draw[#]/n &, Subscript[x, 0]^n, 6 n k];

Le résultat, qui prend environ deux secondes à calculer (plus rapide que la simulation!) Est un tableau de probabilités indexé par le nombre de tirages. Voici un graphique de ses différences, qui sont les probabilités de terminer vos achats en fonction du décompte:

Ce sont précisément les nombres utilisés pour tracer la courbe de fond rouge sur la première figure. (Un test du chi carré indique que la simulation n'est pas significativement différente de ce calcul.)

Nous pouvons estimer le nombre attendu de tirages en additionnant ; le résultat devrait être bon à 14-15 décimales. J'obtenir (qui est correcte dans tous les chiffres, tel que déterminé par un calcul plus long). $1-q$ $50.7619549386733$

— whuber
source