Concept statistique pour expliquer pourquoi vous êtes moins susceptible de retourner le même nombre de têtes que de queues, à mesure que le nombre de retournements augmente?


28

Je travaille sur l'apprentissage des probabilités et des statistiques en lisant quelques livres et en écrivant du code, et en simulant des lancers de pièces, j'ai remarqué quelque chose qui m'a semblé légèrement contraire à l'intuition naïve. Si vous lancez une pièce juste fois, le rapport des têtes aux queues converge vers 1 lorsque augmente, exactement comme vous vous y attendez. Mais d'un autre côté, à mesure que augmente, il semble que vous deveniez moins susceptible de retourner exactement le même nombre de têtes que de queues, obtenant ainsi un rapport d' exactement 1.n nnnn

Par exemple (quelques sorties de mon programme)

For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS)
For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS)
For 1000 flips, it took 11 experiments until we got an exact match (500 HEADS, 500 TAILS)
For 5000 flips, it took 31 experiments until we got an exact match (2500 HEADS, 2500 TAILS)
For 10000 flips, it took 38 experiments until we got an exact match (5000 HEADS, 5000 TAILS)
For 20000 flips, it took 69 experiments until we got an exact match (10000 HEADS, 10000 TAILS)
For 80000 flips, it took 5 experiments until we got an exact match (40000 HEADS, 40000 TAILS)
For 100000 flips, it took 86 experiments until we got an exact match (50000 HEADS, 50000 TAILS)
For 200000 flips, it took 96 experiments until we got an exact match (100000 HEADS, 100000 TAILS)
For 500000 flips, it took 637 experiments until we got an exact match (250000 HEADS, 250000 TAILS)
For 1000000 flips, it took 3009 experiments until we got an exact match (500000 HEADS, 500000 TAILS)

Ma question est la suivante: y a-t-il un concept / principe en statistique / théorie des probabilités qui explique cela? Si oui, de quel principe / concept s'agit-il?

Lien vers le code si quelqu'un souhaite voir comment j'ai généré cela.

-- modifier --

Pour ce que ça vaut, voici comment je m'expliquais tout à l'heure. Si vous lancez une pièce juste n fois et comptez le nombre de têtes, vous générez essentiellement un nombre aléatoire. De même, si vous faites la même chose et comptez les queues, vous générez également un nombre aléatoire. Donc, si vous comptez les deux, vous générez vraiment deux nombres aléatoires, et à mesure que n augmente, les nombres aléatoires augmentent. Et plus les nombres aléatoires que vous générez sont grands, plus ils ont de chances de se "manquer". Ce qui rend cela intéressant, c'est que les deux nombres sont en fait liés dans un sens, avec leur rapport convergeant vers un à mesure qu'ils grandissent, même si chaque nombre est aléatoire de manière isolée. C'est peut-être juste moi, mais je trouve ça plutôt sympa.


Cherchez-vous des explications intuitives ou mathématiques?
Glen_b -Reinstate Monica

1
Les deux, vraiment. Je pense que je comprends en quelque sorte la raison dans un sens intuitif, mais j'aimerais comprendre le raisonnement formel derrière.
mindcrime

1
Savez-vous comment calculer les probabilités binomiales et les appliquer à cette situation? Sinon, recherchez-le et faites les calculs.
Mark L. Stone

Wow, il y a plusieurs bonnes réponses à cette question. Je me sens mal d'avoir à accepter l'un et pas l'autre. Permettez-moi de dire que j'apprécie toutes les réponses et tous ceux qui ont pris le temps de partager leurs idées à ce sujet.
mindcrime

Réponses:


31

Notez que le cas où le nombre de têtes et le nombre de queues sont égaux est le même que "exactement la moitié du temps où vous obtenez des têtes". Restons donc à compter le nombre de têtes pour voir si c'est la moitié du nombre de lancers ou à comparer de manière équivalente la proportion de têtes à 0,5.

Plus vous retournez, plus le nombre de chefs que vous pouvez avoir est important - la distribution est plus étalée (par exemple, un intervalle pour le nombre de têtes contenant 95% de la probabilité s'élargit à mesure que le nombre de lancers augmente) , de sorte que la probabilité d'exactement la moitié des têtes aura tendance à diminuer à mesure que nous lancerons plus.

De même, la proportion de têtes prendra plus de valeurs possibles; voir ici, où nous passons de 100 lancers à 200 lancers:

entrez la description de l'image ici

Avec 100 lancers, nous pouvons observer une proportion de 0,49 tête ou 0,50 tête ou 0,51 tête (et ainsi de suite - mais rien entre ces valeurs), mais avec 200 lancers, nous pouvons observer 0,49 ou 0,495 ou 0,50 ou 0,505 ou 0,510 - la la probabilité a plus de valeurs à «couvrir» et chacune aura donc tendance à obtenir une part plus petite.

Considérez que vous avez lancers avec une certaine probabilité p i d'obtenir i têtes (nous connaissons ces probabilités mais ce n'est pas critique pour cette partie), et vous ajoutez deux lancers supplémentaires. En 2 n lancers, n têtes est le résultat le plus probable ( p n > p n ± 1 et il descend de là).2npjeje2nnpn>pn±1

Quelle est la chance d'avoir têtes en 2 n + 2 lancers?n+12n+2

(Étiquetez ces probabilités avec pour ne pas les confondre avec les précédentes; laissez également P (HH) la probabilité de "Tête, Tête" dans les deux lancers suivants, et ainsi de suite)q

qn+1=pn-1P(HH)+pn(P(HT)+P(TH))+pn+1P(TT)

<pnP(HH)+pn(P(HT)+P(TH))+pnP(TT)=pn

c'est-à-dire que si vous ajoutez deux lancers de pièces supplémentaires, la probabilité de la valeur moyenne diminue naturellement car elle fait la moyenne de la valeur la plus probable (moyenne) avec la moyenne des valeurs les plus petites de chaque côté)

Donc, tant que vous êtes à l' aise que le pic sera au milieu (pour ), La probabilité de têtes exactement la moitié doit diminuer à mesure que n augmente.2n=2,4,6,...n


En fait, nous pouvons montrer que pour les grands , p n diminue proportionnellement à 1npn (sans surprise, puisque la distribution du nombre normalisé de têtes approche de la normalité et la variance de la proportion de têtes diminue avecn).1nn


Comme demandé, voici le code R qui produit quelque chose de proche de l'intrigue ci-dessus:

 x1 = 25:75
 x2 = 50:150
 plot(x1 / 100, dbinom(x1, 100, 0.5), type = "h",
       main = "Proportion of heads in 100 and 200 tosses",
       xlab = "Proportion of heads",
       ylab = "probability")
 points(x2 / 200, dbinom(x2, 200, 0.5), type = "h", col = 3)

1
Je suis d'accord avec @RustyStatistician ci-dessus concernant 1000 mots de votre graphique. Crédit supplémentaire pour le pointeur sur le code.
TomRoche

Superbe figure et explication!

@Tom J'ai inclus du code qui fait tout sauf faire le "200" dans le titre vert.
Glen_b -Reinstate Monica

1
@Glen_b Merci pour un autre excellent article et pour la générosité de partager les lignes de code. Belle parcelle! Il est difficile de l'admettre, mais j'ai des problèmes avec l'expression mathématique du concept dans votre message, et en particulier l'utilisation du majuscule . P
Antoni Parellada du

1
@Antoni signifie simplement "probabilité d'obtenir" Tête, Tête "sur les deux lancers supplémentaires". Pour obtenir n + 1 têtes en 2n + 2 lancers, par 2n lancers, vous devez avoir eu n-1 têtes (et ensuite lancé 2 têtes) ou n têtes (puis lancé 1 tête) ou n + 1 tête (et ensuite lancé 0 têtes). P(HH)
Glen_b -Reinstate Monica

19

Eh bien, nous savons que la loi des grands nombres est ce qui garantit la première conclusion de votre expérience, à savoir que si vous lancez une pièce juste fois, le rapport des têtes aux queues converge vers 1 lorsque n augmente. nn

Donc pas de problème là-bas. Cependant, cela à propos de toute la loi des grands nombres nous dit dans ce scénario.

Mais maintenant, pensez à ce problème de manière plus intuitive. Pensez à lancer une pièce un petit nombre de fois, par exemple: .n=2,4,8,10

Lorsque vous lancez une pièce deux fois, c'est-à-dire , pensez aux scénarios possibles des deux tours. (Ici, H désignera les têtes et T désignera les queues). Sur le flip poing que vous pourriez avoir obtenu H et sur la seconde bascule , vous auriez pu T . Mais c'est juste une façon dont les deux flips auraient pu arriver. Vous auriez pu aussi monter sur le premier flip T et sur le second flip H , et toutes les autres combinaisons possibles. Donc, à la fin de la journée, lorsque vous lancez 2 pièces, les combinaisons possibles que vous pouvez voir sur les deux flips sont S = { H H , H T ,n=2HTHTTH et donc il y a 4 scénarios possibles pour retourner n = 2 pièces.

S={HH,HT,TH,TT}
n=2

Si vous deviez lancer 4 pièces, le nombre possible de combinaisons que vous pourriez voir serait et donc il y a 16 scénarios possibles pour retourner n = 4 pièces.

S={HHHH,HHHT,HHTH,HTHH,THHH,HHTT,HTTH,TTHH,THHT,THTH,HTHT,HTTT,THTT,TTHT,TTTH,TTTT}
n=4

Le fait de retourner pièces conduit à 256 combinaisons.n=8

Le fait de retourner pièces donne 1 024 combinaisons.n=10

Et en particulier, retourner n'importe quel nombre pièces conduit à 2 n combinaisons possibles.n2n

Maintenant, essayons d'aborder ce problème d'un point de vue probabiliste. En regardant le cas où , nous savons que la probabilité d'obtenir exactement le même nombre de têtes et de queues (c'est-à-dire, comme vous le dites, un rapport d'exactement 1) est P r ( rapport d'exactement 1 ) = 2n=2 Lorsquen=4, nous savons que la probabilité d'obtenir exactement le même nombre de têtes et de queues est Pr(rapport d'exactement 1)=6

Pr(Ratio of exactly 1)=24=0,5
n=4
Pr(Rapport d'exactement 1)=616=0,375

n

n

Pr(Rapport d'exactement 1)0

Et donc, pour répondre à votre question. Vraiment, ce que vous observez n'est qu'une conséquence du fait qu'il y aura beaucoup plus de combinaisons de lancers de pièces où le nombre de têtes et de queues ne sont pas égaux par rapport au nombre de combinaisons où elles sont égales.



Comme le suggère @Mark L. Stone, si vous êtes à l'aise avec la formule binomiale et les variables aléatoires binomiales, vous pouvez l'utiliser pour afficher le même argument.

XnXXBjen(n,p=0,5)p=0,5

Pr(Rapport d'exactement 1)=Pr(X=n2)=(nn/2)0,5n/2(0,5)n-n/2=(nn/2)0,5n

n(nn/2)0,5n0n


2
0,5n0n(nn/2)0,5n0n!0,5n0

@Glen_b Je n'ai pas assez de points pour commenter votre post, mais un graphisme génial!

Merci @RustyStatistician, cela aide beaucoup. La première partie de votre explication correspond à peu près à la façon dont je pensais, mais je ne suis pas encore assez loin avec mes statistiques pour savoir comment le faire en utilisant la distribution binomiale. J'ai essentiellement relu mon livre une fois, sans résoudre les problèmes ou quoi que ce soit, et maintenant je reviens en arrière depuis le début et j'écris du code pour explorer divers aspects du matériel.
mindcrime

@mindcrime sonne bien! Heureux d'avoir pu aider.

5

Voir le triangle de Pascal .

La probabilité de résultats de retournement de pièces est représentée par les chiffres sur la ligne du bas. Le résultat de têtes et queues égales est le nombre du milieu. À mesure que l'arbre grandit (c.-à-d. Plus de retournements), le nombre du milieu devient une proportion plus petite de la somme de la rangée du bas.


1

Peut-être que cela aide à souligner que cela est lié à la loi d'arc sinus. Il indique que pour un chemin de résultats, la probabilité que le chemin reste la plupart du temps dans le domaine positif ou négatif est beaucoup plus élevée que celle qu'il monte et descend par rapport à ce que vous attendez de l'intuition . Voici quelques liens:

http://www.math.unl.edu/~sdunbar1/ProbabilityTheory/Lessons/BernoulliTrials/ExcessHeads/excessheads.shtml

https://en.wikipedia.org/wiki/Arcsine_law


1

Alors que le rapport des têtes aux queues converge vers 1, la gamme des nombres possibles devient plus large. (Je fais les chiffres). Disons que pour 100 lancers, la probabilité est de 90% que vous ayez entre 45% et 55% de têtes. C'est 90% que vous obtenez 45 à 55 têtes. 11 possibilités pour le nombre de têtes. Environ 9% environ que vous obtenez un nombre égal de têtes et de queues.

Disons que pour 10000 lancers, la probabilité est de 95% que vous obteniez entre 49% et 51% de têtes. Le ratio est donc beaucoup plus proche de 1. Mais maintenant, vous avez entre 4 900 et 5 100 têtes. 201 possibilités. La chance de nombres égaux n'est que d'environ 0,5% environ.

Et avec un million de lancers, vous êtes sûr d'avoir entre 49,9% et 50,1% de têtes. Cela va de 499 000 à 501 000 têtes. 2 001 possibilités. La chance est maintenant tombée à 0,05%.

D'accord, les calculs étaient faits. Mais cela devrait vous donner une idée du "pourquoi". Même si le rapport se rapproche de 1, le nombre de possibilités devient plus grand, de sorte que frapper exactement la moitié de la tête, la moitié de la queue, devient de moins en moins probable.

Autre effet pratique: il est peu probable en pratique que vous ayez une pièce dont la probabilité de lancer des têtes est exactement de 50%. Il pourrait être de 49,99371% si vous avez une très bonne pièce. Pour un petit nombre de lancers, cela ne fait aucune différence. Pour les grands nombres, le pourcentage de têtes convergera à 49,99371%, et non 50%. Si le nombre de lancers est suffisamment important, lancer 50% ou plus de têtes deviendra très, très peu probable.


0

Eh bien, une chose à noter est qu'avec un nombre pair de flips (sinon la probabilité de têtes et de queues égales est bien sûr exactement nulle), le résultat le plus probable sera toujours celui avec exactement autant de têtes que de queues.

n

(1+X2)n.
n
pn=2-n(nn/2).

n!

p1πn/2
n/2n2-n

2
np

0

Supposons que vous lanciez une pièce deux fois. Il existe quatre résultats possibles: HH, HT, TH et TT. Dans deux d'entre eux, vous avez un nombre égal de têtes et de queues, il y a donc 50% de chances que vous obteniez le même nombre de têtes et de queues.

Supposons maintenant que vous lanciez une pièce 4 306 492 102 fois. Vous attendez-vous à 50% de chances de vous retrouver avec exactement 2 153 246 051 têtes et 2 153 246 051 queues?


Non, mon intuition m'a dit que les chances d'obtenir une correspondance exacte étaient faibles, simplement parce que les chiffres augmentaient. Mais je voulais le simuler juste pour confirmer ma pensée. Quand j'ai vu que cela s'est passé de cette façon, j'ai été intrigué par le raisonnement formel derrière pourquoi il en est ainsi. Il me semble intéressant que le rapport résultant converge vers 1 tout en devenant simultanément moins susceptible d'être exactement 1.
mindcrime

3
Une façon de penser à cela est que pour les grands il y a beaucoup plus de façons d'être proche de 50-50 que pour les petits n . nn
Daniel McLaury
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.