Probabilité de 10000: 1 probabilité de se produire exactement une fois sur 10000 essais

Je suis intéressé à comprendre la différence entre la "probabilité" d'un événement aléatoire avec une probabilité particulière se produisant réellement la probabilité exacte qu'il est probable. c'est-à-dire si un événement a une probabilité de 1 sur 10000, quelle est la probabilité que dans 10000 essais il se produise exactement 1 fois, pas 2 fois, pas 0 fois, pas 3 fois, etc. et comment exprime-t-on (et explique-t-on) l'écart?

Si un événement a une probabilité de 1: 10 000, donc dans 100 000 essais, il est probable qu'il se produise 10 fois; dans 1 000 000 d'essais, il serait susceptible de se produire 100 fois, mais ne serait-il pas tout aussi probable qu'il se produise dans un ensemble donné de 1 000 000 d'essais un certain nombre de fois, par exemple: 98 fois, 99 fois, 101 fois, 96 fois, 102 fois, etc.

Statistiquement parlant, combien d'essais doivent être moyennés et pris en compte pour s'approcher d'une certitude statistique qu'un résultat particulier est réellement 1: 10000, et non 1: 9999 ou 1: 10001 ou 1: 10000,5, etc.?

probability likelihood

— RobH
source

1) Qu'entendez-vous par "une certitude statistique"? 2) "Probabilité" a une signification technique particulière dans les statistiques que je doute que vous ayez l'intention. Si vous voulez dire probabilité , veuillez plutôt utiliser ce mot.

— Glen_b -Reinstate Monica

Exactement ... Je ne suis pas sûr de la signification technique exacte des deux termes "vraisemblance" et "probabilité" ... ce que je veux dire, je suppose, c'est que la probabilité est de 1: 10000 (ou quelle que soit la probabilité) mais si je dessine au hasard quelque chose qui a cette probabilité, cela ne signifie pas nécessairement que cela se réalisera exactement 1 fois sur 10000 fois, n'est-ce pas? Et en ce qui concerne la "certitude statistique" ... combien d'essais auriez-vous besoin pour déterminer la probabilité réelle de quelque chose si les données empiriques montrent que quelque chose que l'on pense être 1: 10000 est en fait 1: 9999 ou 1: 10001, etc.

— RobH

Je vous remercie pour vos réponses. Je suppose que ce que je me demande, est-ce que la taille de l'échantillon sera plus grande, c'est-à-dire 10 000 000 d'essais, 100 000 000 d'essais, etc. d'écart similaire ....

— RobH

Oui, il se rapproche de plus en plus de 1 sur 10000; À mesure que le nombre d'essais augmente (je suppose que c'est bien au-delà de 10000 et qu'il augmente), la proportion d'échantillon se concentre davantage autour de la vraie proportion (population). L'écart type de la distribution de la proportion d'échantillon (son erreur type ) diminue proportionnellement à

\frac{1}{\sqrt{n}}

$\frac{1}{\sqrt{n}}$ . En fait pour les grands

n

$n$ (encore une fois, plus de 10000), vous aurez environ 95% de la probabilité dans

p \pm \frac{1}{\sqrt{n}}

$p\pm\frac{1}{\sqrt{n}}$

— Glen_b -Reinstate Monica

Merci pour les réponses .... maintenant au risque de m'étendre sur ce point, permettez-moi de demander un suivi ... disons qu'après 10 000 000 000 d'essais, le résultat s'est produit 999 982 fois, pourriez-vous alors indiquer la probabilité que le prochain essai soit 1: 9999.82 ou 1: 10000 ou un résultat calculé impliquant l'écart? .. (Ou je suppose que la même chose pourrait être demandée après seulement 1 série de 10 000 essais avec beaucoup moins de précision!)

— RobH

Réponses:

une probabilité de 1 sur 10000, quelle est la ~~probabilité de~~ probabilité que, dans 10000 essais, cela se produise exactement 1 fois

$1/e\approx 0.3679$ , aussi près que ne fait aucune chance. (La probabilité que cela se produise exactement 0 fois est presque exactement la même.)

Edit: Comme Mark L Stone le fait remarquer à juste titre, j'ai pris votre question comme impliquant que les procès sont indépendants sans établir que c'est le cas. Il s'agit d'une hypothèse critique (et peut ne pas être raisonnable dans de nombreuses situations). Néanmoins, je continuerai de répondre sur cette base, car je continue de penser que c'était votre intention.

Il en va de même pour $n$ essais et une probabilité de $1/n$ , pour toute taille suffisamment grande $n$ .

Les probabilités (pour tout grand $n$ ) ressemble beaucoup à ceci (montrant le cas $n$ = 10000):

entrez la description de l'image ici

Si un événement a une probabilité de 1: 10 000, donc dans 100 000 essais, il est probable qu'il se produise 10 fois; dans 1 000 000 d'essais, il serait susceptible de se produire 100 fois, mais ne serait-il pas tout aussi probable qu'il se produise dans un ensemble donné de 1 000 000 d'essais un certain nombre de fois, par exemple: 98 fois, 99 fois, 101 fois, 96 fois, 102 fois, etc.

Pas tout à fait: 99 et 100 ont la même chance, mais tout le reste a une chance plus faible:

entrez la description de l'image ici

(la probabilité continue de diminuer à mesure que vous vous éloignez).

Plus précisément, vous avez affaire à une distribution binomiale avec $n=1000000$ et $p=1/10000$ .

Depuis $n$ est grand et $p$ est petit, il est bien approximé par une distribution de Poisson avec une moyenne $\lambda=np=100$ .

combien d'essais doivent être moyennés et pris en compte pour s'approcher d'une certitude statistique qu'un résultat particulier est en réalité 1: 10000, et non 1: 9999 ou 1: 10001

Vous ne pouvez pas être certain qu'il s'agit en fait de 1/10000, car vous pouvez en être arbitrairement proche mais différent de lui.

Dans $n$ essais, le nombre de succès escompté est de $np$ avec sd $\sqrt{np(1-p)}\approx \sqrt{np}$ .

Si $p=1/10000$ , et $n=10^{12}$ , le nombre de succès escompté est $10^{8}$ avec sd $10^{4}$ ; si $p=1/9999$ le nombre de succès escompté serait $100,010,000$ ... environ un écart-type - pas assez pour les distinguer "de manière fiable". Mais avec $n=4\times 10^{12}$ tu es sur le point $2$ sd est loin, et vous pouvez les distinguer plus facilement; c'est probablement aussi bas que la plupart des gens voudraient y aller. À $n=10^{13}$ vous pouvez les distinguer assez bien (les chances de 1/10000 ressemblant à 1/9999 ou 1/10001 ou quoi que ce soit plus loin par hasard sont assez petites à ce stade).

Dis que tu étais content $10^{13}$ essais pour distinguer $p=1/10000$ de $1/9999$ . Si vous vouliez exclure 1 / 9999,5 avec la même confiance que vous aviez pour exclure 1/9999, vous auriez besoin de 4 fois plus d'essais.

Vous pouvez voir que l’épinglage des proportions à de nombreux chiffres de précision (lorsque $p$ est très petit) nécessite beaucoup d'essais; vous avez besoin d'une taille d'échantillon plusieurs fois supérieure à $(1/p)^3$ pour obtenir une estimation suffisamment précise pour pouvoir exclure $p=1/(k\pm 1)$ quand c'est vraiment $1/k$ .

disons qu'après 10 000 000 000 d'essais, le résultat s'est produit 999 982 fois. Pourriez-vous alors indiquer la probabilité que l'essai suivant soit 1: 9999,82 ou 1: 10000 ou un résultat calculé impliquant l'écart? .. (Ou je suppose que la même chose pourrait être demandée après seulement 1 série de 10 000 essais avec beaucoup moins de précision!)

Oui, il pourrait être demandé à 10000 essais ou 1000 ou 100.

Simplifions les choses et prenons 10000 essais et 98 succès. On pourrait bien sûr prendre comme estimation ponctuelle de la probabilité de réussite 98/10000 = 0,0098 mais ce ne sera pas réellement la proportion sous-jacente, seulement une estimation de celle-ci. Cela pourrait bien être 0,944 ... ou 0,997 ... ou n'importe quel nombre d'autres valeurs.

Donc, une chose que les gens font est de construire un intervalle de valeurs qui serait (dans un certain sens) raisonnablement cohérent avec la proportion observée. Il existe deux philosophies principales de la statistique (statistiques bayésienne et fréquentiste) qui, dans de grands échantillons, auraient généralement tendance à générer des intervalles similaires mais qui ont des interprétations assez différentes.

Le plus commun serait un intervalle de confiance (fréquentiste) ; un intervalle pour le paramètre ( $p$ ) qui devrait (sur de nombreuses répétitions de la même expérience) inclure le paramètre dans une proportion donnée du temps.

Un intervalle bayésien typique commencerait par une distribution préalable sur le paramètre représentant votre incertitude quant à sa valeur, et utiliserait les données pour mettre à jour cette connaissance de celui-ci à une distribution postérieure et à partir de là obtenir un intervalle crédible .

Les intervalles de confiance sont très largement utilisés (bien qu'un intervalle crédible puisse se rapprocher de vos attentes quant à ce qu'un intervalle devrait faire). Dans le cas de l' intervalle de confiance de proportion binomiale , comme ici, il existe une variété d'approches, bien que dans de grands échantillons, elles vous donnent toutes à peu près le même intervalle.

avec des dés, même 6 x 10 ^ 9 essais peuvent ne pas donner exactement 1 x 10 ^ 9 pour chacun des six résultats

Correct; vous vous attendez (avec des dés équitables) à obtenir entre 999,94 millions et 1000,06 millions de succès presque (mais pas tout à fait) chaque fois que vous l'essayez.

Si la probabilité réelle est de 1: 10000, l'augmentation des essais dans l'écart prévu tendrait à confirmer que

Il restera presque toujours cohérent avec lui (et avec une gamme d'autres valeurs proches). Ce qui se passe n'est pas que vous pouvez dire que c'est 1/10000, mais que l'intervalle des valeurs de probabilité cohérentes avec vos résultats se rétrécira à mesure que la taille de l'échantillon augmente.

— Glen_b -Reinstate Monica
source

Glen_b, vous supposez que chaque essai est indépendant. C'est peut-être ce que le PO prévoyait, mais le manque de sophistication de la probabilité du PO me suggère que le PO fait implicitement une hypothèse d'indépendance, comme peut-être toujours applicable à la probabilité. Considérons une variable aléatoire pour laquelle il y aura 10000 essais, de telle sorte qu'avec la probabilité 9999/10000 l'événement se produise à zéro essai et avec la probabilité 1/10000 l'événement se produira à tous les 10000 essais. L'événement a une probabilité de 1 sur 10000 de se produire, et la probabilité qu'il se produise exactement une fois sur 100000 essais est nulle.

— Mark L. Stone

Merci @ MarkL.Stone - vous avez raison, j'ai pris la question comme impliquant l'indépendance mais j'aurais dû être complètement explicite à ce sujet. Je vais ajouter une phrase pour clarifier ma réponse.

— Glen_b -Reinstate Monica

Je supposerai la différence si chaque essai est indépendant comme suit: si j'avais un conteneur de 10 000 billes, 1 rouge et 9 999 noir, la probabilité de sélectionner la bille rouge lors du premier essai serait de 1: 10000 ... si Je dessine une bille noire, puis la probabilité de rouge au prochain essai serait de 1: 9999, et je continue jusqu'à ce que je dessine la bille rouge, après quoi la probabilité serait 0. Un exemple d'un essai indépendant signifierait que chaque bille serait être pris dans un nouveau conteneur de 9999 marbres noirs et 1 marbre rouge, correct? Oui, c'est ce que j'avais l'intention de décrire.

— RobH

Je suis venu à cette question sur la base de son titre, tout en espérant trouver la probabilité d'un événement avec $p = \frac{1}{n}$ qui se produit au moins une fois $n$ itérations. Je sais que votre question concernait exactement une fois, mais je suppose qu'elle est en quelque sorte liée.

Il ressemble à $n$ suffisamment grande, cette probabilité tend à $1 / e ≃ 0.632$ et est (de manière assez surprenante) presque indépendante de $n$ .

Explication:

Supposons que je lance un dé 6 fois. La probabilité d'obtenir 1au moins une fois de ces 6 essais est:

Probabilité de ne pas obtenir «1» pour chaque essai:

$p = \frac{5}{6}$

Probabilité de ne pas obtenir de «1» en 6 essais:

$p = \frac{5}{6}^{6}$

Probabilité d'obtenir «1» au moins une fois sur 6 essais:

$p = 1 - \frac{5}{6}^{6} \approx 0.665$

De même, supposons qu'un événement ait une probabilité de 1/10000. La probabilité que cet événement se produise au moins une fois sur les 10000essais est:

$p = 1 - \frac{9999}{10000}^{10000} \approx 0.634$

Nous pouvons extrapoler cela pour tout net obtenir:

Probabilité d'événement avec $p = \frac{1}{n}$ survenant au moins une fois sur $n$ essaie:

$p = 1 - (\frac{n-1}{n})^{n}$

Et depuis:

$\lim\limits_{n \rightarrow +\infty} \frac{n-1}{n}^{n} = \lim\limits_{n \rightarrow +\infty} (1 - \frac{1}{n})^{n} = \frac{1}{e} \approx 0.368$

On peut dire ça:

$\lim\limits_{n \rightarrow +\infty} 1 - \frac{n-1}{n}^{n} \approx 0.632$

En traçant cette équation dans Grapher , nous obtenons quelque chose comme ceci:

Conclusion: bien que cela soit parfaitement logique, j'ai été en fait assez surpris par le fait que la probabilité qu'un événement ait $p = \frac{1}{n}$ passe au moins une fois sur $n$ essaie est presque indépendant de $n$ , pour $n$ aussi peu que $3$ déjà.

— Jivan
source

Laissons s'établir sur un problème plus simple sur les dés. Permet de calculer la ~~probabilité de~~ probabilité que sur 6 lancers de dés, le score sera 1 exactement une fois.

De combien de façons cela peut-il se produire [et leurs probabilités respectives]:

1 is scored in first throw but not in any other throws[1/6*5/6*5/6*...] [=3125/46656]
1 is scored in second throw but not in any other throw [5/6*1/6*5/6*...] [=3125/46656]
...
...

donc la probabilité totale que 1 ne soit marqué qu'une seule fois en 6 lancers est (3125/46656) * 6 = 3125/7776

Vous pouvez étendre le même développement pour les événements de probabilité 1 / n. La probabilité que l'événement se produise une seule fois dans n essais serait

((n-1)/n)^(n-1)

Cela peut sembler un peu familier lorsque je le réorganise:

(1-1/n)^(n-1)

Autre partie de votre question: réduire l'écart à mesure que le nombre d'échantillons augmente, est déjà bien expliqué dans une autre réponse.

— GPS
source

Malheureusement, les réponses mises en évidence sont incorrectes.

— Dilip Sarwate