Temps nécessaire pour frapper un motif de têtes et de queues dans une série de lancers de pièces

26

Inspiré par la conférence de Peter Donnelly à TED , dans laquelle il explique combien de temps il faudrait pour qu'un certain motif apparaisse dans une série de lancers de pièces, j'ai créé le script suivant dans R. Étant donné deux modèles `` hth '' et `` htt '', il calcule le temps qu'il faut (c'est-à-dire le nombre de lancers de pièces) en moyenne avant de toucher l'un de ces motifs.

coin <- c('h','t')

hit <- function(seq) {
    miss <- TRUE
    fail <- 3
    trp  <- sample(coin,3,replace=T)
    while (miss) {
        if (all(seq == trp)) {
            miss <- FALSE
        }
        else {
            trp <- c(trp[2],trp[3],sample(coin,1,T))
            fail <- fail + 1
        }
    }
    return(fail)
}

n <- 5000
trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n))

hth <- c('h','t','h')
htt <- c('h','t','t')

set.seed(4321)
for (i in 1:n) {
    trials[i,] <- c(hit(hth),hit(htt))    
}
summary(trials)

Les statistiques sommaires sont les suivantes,

      hth             htt        
 Min.   : 3.00   Min.   : 3.000  
 1st Qu.: 4.00   1st Qu.: 5.000  
 Median : 8.00   Median : 7.000  
 Mean   :10.08   Mean   : 8.014  
 3rd Qu.:13.00   3rd Qu.:10.000  
 Max.   :70.00   Max.   :42.000

Dans l'exposé, il est expliqué que le nombre moyen de lancers de pièces serait différent pour les deux modèles; comme on peut le voir dans ma simulation. Malgré avoir regardé le discours à quelques reprises, je ne comprends toujours pas pourquoi ce serait le cas. Je comprends que «hth» se chevauche et intuitivement, je pense que vous frapperiez «hth» plus tôt que «htt», mais ce n'est pas le cas. J'apprécierais vraiment que quelqu'un puisse m'expliquer cela.

r probability stochastic-processes

— lafrasu
source

32

Pensez à ce qui se passe la première fois que vous obtenez un H suivi d'un T.

Cas 1: vous recherchez HTH , et vous avez vu HT pour la première fois. Si le prochain lancer est H, vous avez terminé. Si c'est T, vous êtes de retour à la case départ: puisque les deux derniers lancers étaient TT, vous avez maintenant besoin du HTH complet.

Cas 2: vous recherchez HTT , et vous avez vu HT pour la première fois. Si le prochain lancer est T, vous avez terminé. Si c'est H, c'est clairement un revers; cependant, c'est mineur car vous avez maintenant le H et n'avez besoin que de -TT. Si le prochain lancer est H, cela n'aggrave pas votre situation, tandis que T l'améliore, et ainsi de suite.

Autrement dit, dans le cas 2, le premier H que vous voyez vous prend 1/3 du chemin, et à partir de ce moment-là, vous ne devez jamais recommencer à zéro. Ce n'est pas vrai dans le cas 1, où un TT efface tous les progrès que vous avez réalisés.

— NPE
source

Ohh, donc dans ce scénario, le retournement de pièce ne s'arrête pas quand un motif gagne! Ça a du sens. Cela m'a dérouté pendant un certain temps (je n'ai pas regardé la conversation TED) alors j'ai pensé que je commenterais pour aider ceux qui auraient pu penser la même chose.

15

Supposons que vous jetez la pièce fois et comptez le nombre de fois que vous voyez un motif "HTH" (y compris les chevauchements). Le nombre attendu est . Mais c'est aussi pour "HTT". Étant donné que peut se chevaucher et "HTT" ne peut pas, vous vous attendez à plus d'agglutination avec "HTH", ce qui augmente le temps prévu pour la première apparition de . $8n+2$ $n$ $n$ $HTH$ $HTH$

Une autre façon de voir les choses est qu'après avoir atteint "HT", un "T" renverra "HTH" au début, tandis qu'un "H" commencera la progression vers un éventuel "HTT".

Vous pouvez calculer les deux temps prévus en utilisant l'algorithme de Conway [je pense], en examinant les chevauchements: si les premiers lancers du motif correspondent au dernier , alors ajoutez . Donc pour "HTH" vous obtenez comme attente et pour "HTT" vous obtenez , confirmant votre simulation. $k$ $k$ $2^k$ $2+0+8=10$ $0+0+8=8$

La bizarrerie ne s'arrête pas là. Si vous avez une course entre les deux modèles, ils ont une probabilité égale d'apparaître en premier, et le temps prévu jusqu'à ce que l'un d'eux apparaisse est (un temps de plus que prévu pour obtenir "HT", après quoi l'un d'eux doit apparaître) . $5$

Cela empire: dans le jeu de Penney, vous choisissez un modèle pour courir, puis j'en choisis un autre. Si vous choisissez "HTH", je choisirai "HHT" et j'aurai une chance de gagner 2: 1; si vous choisissez "HTT", je choisirai à nouveau "HHT" et j'ai toujours une cote de 2: 1 en ma faveur. Mais si vous choisissez "HHT", je choisirai "THH" et j'aurai une cote de 3: 1. Le deuxième joueur peut toujours biaiser les cotes et les meilleurs choix ne sont pas transitifs.

— Henri
source

+1 Merci pour le lien vers le jeu de Penney; plus de nuits blanches :)

— lafrasu

Cher Henry, j'ai posé une question similaire sur ce site, et on m'a dit de chercher une réponse ici. J'ai regardé le jeu de Penney, mais je n'arrive toujours pas à résoudre mon problème. Toute aide serait appréciée.

— superAnnoyingUser

14

J'aime dessiner des images.

entrez la description de l'image ici

Ces diagrammes sont des automates à états finis (FSA). Ce sont de minuscules jeux pour enfants (comme des chutes et des échelles ) qui "reconnaissent" ou "acceptent" les séquences HTT et HTH, respectivement, en déplaçant un jeton d'un nœud à un autre en réponse aux lancers de pièces. Le jeton commence au nœud supérieur, indiqué par une flèche (ligne i ). Après chaque lancement de la pièce, le jeton est déplacé le long du bord étiqueté avec le résultat de cette pièce (soit H ou T) vers un autre nœud (que j'appellerai respectivement "nœud H" et "nœud T"). Lorsque le jeton atterrit sur un nœud terminal (pas de flèches sortantes, indiquées en vert), le jeu est terminé et la FSA a accepté la séquence.

Considérez chaque FSA comme progressant verticalement sur une piste linéaire. Lancer la "bonne" séquence de têtes et de queues fait progresser le jeton vers sa destination. Lancer une valeur "erronée" provoque la sauvegarde du jeton (ou au moins reste immobile). Le jeton sauvegarde à l'état le plus avancé correspondant aux lancements les plus récents. Par exemple, le HTT FSA à la ligne ii reste sur la ligne ii après avoir vu une tête, car cette tête pourrait être la séquence initiale d'une éventuelle HTH. Il ne pas aller tout le dos de chemin vers le début, parce que cela ignorer efficacement cette dernière tête tout à fait.

Après avoir vérifié ces deux jeux correspondent en effet à HTT et HTH comme revendiqué, et les avoir comparés ligne par ligne, et il devrait maintenant être évident que HTH est plus difficile à gagner . Ils ne diffèrent dans leur structure graphique que sur la ligne iii , où un H ramène HTT à la ligne ii (et un T accepte) mais, dans HTH, un T nous ramène à la ligne i (et un H accepte). La pénalité à la ligne iii en jouant HTH est plus sévère que la pénalité en jouant HTT.

Cela peut être quantifié. J'ai étiqueté les nœuds de ces deux FSA avec le nombre attendu de lancers nécessaires pour l'acceptation. Appelons-les le nœud "valeurs". L'étiquetage commence par

(1) écrire la valeur évidente de 0 aux nœuds accepteurs.

Soit la probabilité des têtes p (H) et la probabilité des queues 1 - p (H) = p (T). (Pour une pièce équitable, les deux probabilités sont égales à 1/2.) Parce que chaque lancer de pièce ajoute un au nombre de lancers,

(2) la valeur d'un nœud est égale à une plus p (H) fois la valeur du nœud H plus p (T) fois la valeur du nœud T.

Ces règles déterminent les valeurs . C'est un exercice rapide et instructif pour vérifier que les valeurs étiquetées (en supposant une pièce équitable) sont correctes. À titre d'exemple, considérons la valeur de HTH à la ligne ii . La règle dit que 8 doit être 1 de plus que la moyenne de 8 (la valeur du nœud H sur la ligne i ) et 6 (la valeur du nœud T sur la ligne iii ): bien sûr, 8 = 1 + (1/2) * 8 + (1/2) * 6. Vous pouvez tout aussi facilement vérifier les cinq valeurs restantes dans l'illustration.

— whuber
source

L'approche FSA est un excellent moyen d'analyser le jeu de Penney (dans la réponse de @Henry). Les valeurs sont étiquetées un peu différemment: le FSA a maintenant un nœud acceptant par modèle. Pour trouver la chance de gagner votre modèle, étiquetez son nœud acceptant avec 1 et tous les autres nœuds acceptant avec 0. La valeur à tout autre nœud est égale à la moyenne des valeurs de ses nœuds H et T. La valeur du nœud de départ (unique) est la chance de gagner.

— whuber

Je trouve votre photo utile et intuitive, @whuber, mais je ne respecte pas tout à fait les règles d'attribution des numéros aux nœuds. Par exemple, votre exemple utilise 1 + (1/2) * 10 + (1/2) * 6. Cela ne devrait-il pas être 9? Puisque je suppose que vous les remplissez en commençant par w / au nœud terminal, il pourrait être plus facile de suivre si votre exemple était de savoir comment obtenir le # pour le nœud iii, étant donné iv = 0.

0

$0$

— gung - Rétablir Monica

@gung Merci d'avoir attrapé ça. J'ai corrigé l'exemple. Cependant, il y a une faute de frappe dans la figure: il semble que la valeur de HTT à la ligne iii devrait être 4, plutôt que 2.

— whuber

4

De bonnes réponses. Je voudrais adopter une approche légèrement différente et aborder la question de la contre-intuitivité. (Je suis tout à fait d'accord, BTW)

Voici comment je comprends cela. Imaginez une colonne de résultats de tirage au sort séquentiels aléatoires imprimés sur une bande de papier, composée des lettres "H" et "T".

Détachez arbitrairement une section de cette bande et faites une copie identique.

Sur une bande donnée, la séquence HTH et la séquence HTT se produiront chacune aussi souvent, si la bande est suffisamment longue.

Mais parfois, les instances HTH fonctionneront ensemble, c'est-à-dire HTHTH. (ou même très occasionnellement HTHTHTH)

Ce chevauchement ne peut pas se produire avec les instances HTT.

Utilisez un surligneur pour sélectionner les «rayures» des résultats positifs, HTH sur une bande et HTT sur l'autre. Quelques-unes des bandes HTH seront plus courtes en raison du chevauchement. Par conséquent, les écarts entre eux, en moyenne, seront légèrement plus longs que sur l'autre bande.

C'est un peu comme attendre un bus, alors qu'en moyenne il y en a un toutes les cinq minutes. Si les bus sont autorisés à se chevaucher, l'intervalle sera légèrement plus long que cinq minutes, en moyenne, car parfois deux passeront ensemble.

Si vous arrivez à une heure arbitraire, vous attendrez un peu plus longtemps le prochain (à vous, premier) bus, en moyenne, s'ils sont autorisés à se chevaucher.

— Andrew Troup
source

2

Je cherchais l'intuition à cela dans le cas entier (alors que je fouille dans l'introduction de Ross aux modèles de probabilité). Je pensais donc aux cas entiers. J'ai trouvé que cela aidait:

$A$

$B$

$A=B$ $P(A \cap \tilde{B})=0$

$A \ne B$ $P(A \cap \tilde{B}) \ge 0$

Alors, laissez-moi imaginer que j'ai la chance de terminer le motif au prochain tirage. Je dessine le symbole suivant et il ne termine pas le motif. Dans le cas où mon motif ne se chevaucherait pas, le symbole dessiné pourrait encore me permettre de recommencer la construction du motif depuis le début.

Dans le cas d'un chevauchement, le symbole dont j'avais besoin pour terminer mon motif partiel était le même que le symbole dont j'avais besoin pour commencer la reconstruction. Je ne peux donc pas faire non plus, et par conséquent, j'aurai certainement besoin d'attendre le prochain tirage pour avoir une chance de recommencer à construire.

— conjectures
source