La distribution de probabilité d'une urne change-t-elle lorsque vous en tirez sans remplacement en moyenne?

9

Supposons que j'ai une urne contenant N couleurs de boules différentes et que chaque couleur différente puisse apparaître un nombre différent de fois (s'il y a 10 boules rouges, il n'est pas nécessaire qu'il y ait également 10 boules bleues). Si nous connaissons le contenu exact de l'urne avant de dessiner, nous pouvons former une distribution de probabilité discrète qui nous indique la probabilité de dessiner chaque couleur de boule. Ce que je me demande, c'est comment la distribution change après avoir tiré k boules sans les remplacer de l'urne en moyenne. Je comprends que lorsque nous tirons de l'urne, nous pouvons mettre à jour la distribution en sachant ce qui a été retiré, mais ce que je veux savoir, c'est ce que nous attendons de la forme de la distribution après avoir retiré k balles. La distribution change-t-elle en moyenne ou reste-t-elle la même? Si elle ne reste pas la même, pouvons-nous écrire une formule pour ce à quoi nous nous attendons à ce que la nouvelle distribution ressemble en moyenne après avoir fait k tirages?

probability discrete-data distributions

— mjnichol
source

1

je peux me tromper - mais cela donne l'impression que l'on connaît la distribution précédente, mais n'a aucune information sur la probabilité (à part que k balles sont supprimées). dans ce cas - je suppose que le postérieur est égal au précédent. Pour être juste - il existe des informations probables que le nombre de billes a diminué et que (pour une balle retirée), la distribution est donc par exemple bimodale entre 50% de possibilité de 9 rouges et 10 noirs et 50% de possibilité de 10 rouges et 9 noirs . je dois me tromper ici cependant

— Wouter

Mon intuition est que c'est comme le dernier cas que vous avez décrit. Je ne trouve cependant personne parlant de ce genre de processus.

— mjnichol

7

"Calcul direct": Soit boules de couleurs dans l'urne. Concentrons-nous sur la probabilité de dessiner une couleur particulière, disons le blanc , sur le deuxième tirage. Soit le nombre de boules blanches . Soit la couleur de la balle obtenue au ème tirage. $n$ $m$ $n_w$ $X_i$ $i$

$\begin{array}{rcl} P (X_{2} = W) & = & P (X_{2} = W | X_{1} = W) P (X_{1} = W) + P (X_{2} = W | X_{1} = \bar{W}) P (X_{1} = \bar{W}) \\ = & \frac{n_{w} - 1}{n - 1} \frac{n_{w}}{n} + \frac{n_{w}}{n - 1} \frac{n - n_{w}}{n} \\ = & \frac{n_{w} (n - n_{w} + n_{w} - 1)}{n (n - 1)} \\ = & \frac{n_{w}}{n} \\ = & P (X_{1} = W) \end{array}$ $\begin{eqnarray} P(X_2=W)&=&P(X_2=W|X_1=W)P(X_1=W)+P(X_2=W|X_1=\overline{W})P(X_1=\overline{W})\\ &=&\frac{n_w-1}{n-1}\frac{n_w}{n}+\frac{n_w}{n-1}\frac{n-n_w}{n}\\ &=&\frac{n_w(n-n_w+n_w-1)}{n(n-1)}\\ &=&\frac{n_w}{n}\\ &=&P(X_1=W) \end{eqnarray}$
Bien sûr, ce même argument s'applique à toutes les couleurs du deuxième tirage. Nous pouvons appliquer le même type d'argument de manière récursive lorsque nous considérons des tirages ultérieurs.

[On pourrait bien sûr effectuer un calcul encore plus direct. Considérez les premiers tirages comme consistant en boules blanches et boules non blanches (avec probabilité donnée par la distribution hypergéométrique), et effectuez le calcul correspondant au simple ci-dessus mais pour le tirage à l'étape ; on obtient une simplification et une annulation similaires, mais ce n'est pas particulièrement instructif à réaliser.] $k$ $i$ $k-i$ $k+1$
Un argument plus court: pensez à étiqueter les boules au hasard avec les nombres , puis à les dessiner dans l'ordre étiqueté. La question devient maintenant "La probabilité qu'une étiquette donnée, , soit placée sur une boule blanche soit la même que la probabilité que l'étiquette soit placée sur une boule blanche?" $1,2,...,n$ $k$ $1$

Nous voyons maintenant que la réponse doit être "oui" par symétrie des étiquettes. De même, par symétrie des couleurs de balle, peu importe que nous disions "blanc", donc l'argument selon lequel l'étiquette et l'étiquette ont la même probabilité s'applique à n'importe quelle couleur. Par conséquent, la distribution au ème tirage est la même que pour le premier tirage, tant que nous n'avons pas d'informations supplémentaires sur les tirages précédents (c'est-à-dire tant que les boules tirées précédemment ne sont pas vues). $k$ $1$ $k$

— Glen_b -Reinstate Monica
source

Étroitement lié à votre 2e voie, un autre argument court: imaginez l'ensemble de toutes les séquences possibles dans lesquelles les boules peuvent être retirées (par exemple bleu d'abord, puis blanc, puis blanc, ... pourrait être une de ces séquences). Si pour chaque séquence de cet ensemble nous échangeons les éléments et , nous permutons simplement l'ensemble. Donc, pour chaque séquence avec une balle blanche (ou autre) en position , il y a exactement une séquence correspondante avec une balle blanche en position . Par conséquent, la probabilité d'une boule blanche en position ou en position doit être la même. Je pense que c'est essentiellement l'argument de Neil.

1^{s t}

$1^{st}$

k^{t h}

$k^{th}$

k

$k$

1

$1$

k

$k$

1

$1$

— Silverfish

@Silverfish Oui, en le regardant, mon deuxième argument est essentiellement le même type d'argument que l'argument de permutation de Neil.

— Glen_b -Reinstate Monica

Merci pour l'explication. C'était exactement ce que j'avais besoin de voir!

— mjnichol

6

La seule raison pour laquelle il n'est pas parfaitement évident que la distribution reste inchangée (à condition qu'il reste au moins une balle) est qu'il y a trop d'informations. Supprimons le matériel distrayant.

Ignorez un instant la couleur de chaque balle. Concentrez-vous sur une balle. Supposons que balles sont sur le point d'être retirées au hasard (et non observées), puis une st balle sera tirée et observée. Cela ne fait aucune différence dans l' ordre dans lequel la sélection se produit, vous pouvez donc aussi bien observer la toute première balle tirée (puis retirer une autre balles si vous insistez). La distribution n'a évidemment pas changé, car elle ne sera pas affectée par le retrait des autres balles. $k$ $k+1$ $k$ $k$

Cet argument - bien que parfaitement valable - pourrait inquiéter certaines personnes. L'analyse suivante pourrait être acceptée comme plus rigoureuse, car elle ne nous demande pas d'ignorer l'ordre de sélection.

Continuez à vous concentrer sur votre balle. Il aura une certaine probabilité d'être sélectionné comme er ballon. Bien que soit facile à calculer, nous n'avons pas besoin de connaître sa valeur: tout ce qui compte, c'est que ce soit la même valeur pour chaque boule (car toutes les boules sont équivalentes) et qu'elle soit non nulle. Mais s'il était nul, aucune balle n'aurait de probabilité d'être sélectionnée: donc tant qu'il reste au moins une balle, . $p_k$ $k+1$ $p_k$ $p_{k}\ne 0$

Faites à nouveau attention aux couleurs. Par définition, la possibilité qu'une couleur particulière sera choisi (après boules sont retirées au hasard) est la somme des chances de tous l'original boules -colored divisé par la somme des chances de toutes les boules originales. Lorsqu'il y a à l'origine boules de couleur et boules au total, cette valeur est $C$ $k$ $C$ $k_C$ $C$ $n$

{Pr}_{k} (C) = \frac{k_{c} p_{k}}{n p_{k}} = \frac{k_{c}}{n} .

${\Pr}_k(C) = \frac{k_c p_k}{n p_k} = \frac{k_c}{n}.$

Lorsque cela ne dépend pas de , QED . $k\lt n$ $k$

— whuber
source

Merci pour le commentaire. Cela m'a aidé à mieux comprendre les processus sous-jacents!

— mjnichol

2

Soit la distribution du tirage d'une seule balle - après avoir déjà tiré balles sans remplacement - avoir la distribution catégorique étant donné la distribution sur ces distributions catégorielles . $k$ $E(D_k)$ $D_k$

Je suppose que vous demandez si est constant. $E(D_k)$

Je pense que c'est. Supposons que vous finissiez par tirer toutes les boules. Toutes les permutations des balles sont également probables. La probabilité de dessiner initialement est . Vous pouvez réorganiser vos choix en une permutation tout aussi probable selon laquelle votre première balle choisie a été choisie en dernier, et votre deuxième choisie a été choisie en premier. Cette balle a une attente , qui doit être égale à raison de la symétrie. Par induction, les sont tous égaux. $E(D_0)$ $E(D_1)$ $E(D_0)$ $E(D_i)$

— Neil G
source

Vous voulez dire que je demande si est constant pour chaque k, non?

E (D_{k})

$E(D_k)$

— mjnichol

@mjnichol right

— Neil G

0

La "distribution attendue" ne change pas. On pourrait utiliser un argument de martingale! J'ajouterai cela à la réponse plus tard (je voyage maintenant).

La distribution, conditionnelle aux tirages précédents (pour les tirages ultérieurs) ne change que lorsque vous observez réellement les tirages. Si vous tirez la balle de l'urne avec une main bien fermée, puis la jetez sans observer sa couleur (j'ai utilisé ce théâtre efficacement comme démonstration de classe), la distribution ne change pas. Ce fait a une explication: la probabilité est une information, la probabilité est un concept d'information.

Les probabilités ne changent donc que lorsque vous obtenez de nouvelles informations (probabilités conditionnelles, en d'autres termes). Tirer la balle et la jeter sans l'observer ne vous donne aucune nouvelle information, donc rien de nouveau à conditionner. Ainsi, lorsque vous conditionnez sur l'ensemble d'informations réel, cela n'a pas changé, de sorte que la distribution conditionnelle ne peut pas changer.

 EDIT

Je ne donnerai pas beaucoup plus de détails à cette réponse, j'ajoute seulement une référence: Hosam M. Mahmoud: "Pólya Urn Models" (Chapman & Hall), qui traite des modèles d'urnes comme celui de cette question, et aussi une urne beaucoup plus généralisée schémas, également en utilisant des méthodes de martingale pour obtenir des résultats limites. Mais les méthodes de martingale ne sont pas nécessaires pour la question dans ce post.

— kjetil b halvorsen
source

La distribution (pour les tirages ultérieurs) ne change pas même lorsque vous observez réellement les tirages. Pourquoi l'observation de quelque chose devrait-elle changer quoi que ce soit?

— Neil G

1

@Neil Je pense que kjetil fait référence à la distribution conditionnelle aux tirages observés .

— Silverfish

@Silverfish: Ah je vois. Vous avez raison, mes excuses.

— Neil G

Je modifierai pour rendre plus clair à la maison dans environ deux semaines. Pour l'instant des vacances à Venise ...

— kjetil b halvorsen