La version courte est que la distribution bêta peut être comprise comme représentant une distribution de probabilités - c'est-à-dire qu'elle représente toutes les valeurs possibles d'une probabilité lorsque nous ne savons pas quelle est cette probabilité. Voici mon explication intuitive préférée de ceci:
Toute personne qui suit le baseball connaît bien les moyennes au bâton - simplement le nombre de fois où un joueur obtient un coup de base divisé par le nombre de fois où il monte au bâton (il ne s'agit donc que d'un pourcentage entre 0
et 1
). .266
est en général considéré comme une moyenne au bâton, alors qu’il .300
est considéré comme excellent.
Imaginez que nous ayons un joueur de baseball et que nous voulions prédire quelle sera sa moyenne au bâton pour la saison. Vous pouvez dire que nous pouvons simplement utiliser sa moyenne au bâton jusqu'à présent - mais ce sera une mesure très médiocre en début de saison! Si un joueur monte au bâton une fois et obtient un simple, sa moyenne au bâton est brièvement 1.000
, alors que s'il frappe, sa moyenne au bâton est de 0.000
. Cela ne va pas beaucoup mieux si vous jouez cinq ou six fois. Vous pourriez avoir une série de chance et une moyenne 1.000
, ou une série de malchance et obtenir une moyenne 0
, qui ne sont pas un prédicteur médiocre de la façon dont vous battez cette saison.
Pourquoi votre moyenne au bâton dans les premiers coups n’est-elle pas un bon prédicteur de votre moyenne au bâton? Quand le premier joueur à l'attaque est un retrait, pourquoi personne ne prédit-il qu'il n'aura jamais de coup sûr toute la saison? Parce que nous entrons avec des attentes antérieures. Nous savons que dans l’histoire, la plupart des moyennes au bâton au cours d’une saison ont oscillé entre .215
et .360
, à quelques rares exceptions près. Nous savons que si un joueur obtient quelques retraits au bâton au début, cela pourrait indiquer qu'il finira un peu moins bien que la moyenne, mais nous savons qu'il ne s'écartera probablement pas de cette fourchette.
Compte tenu de notre problème de moyenne d'ouate en feuille, qui peut être représenté par une distribution binomiale (une série de réussites et d' échecs), la meilleure façon de représenter ces attentes avant (ce que nous dans les statistiques des appels juste avant ) est avec la version bêta distribution- il est dit: avant que nous ayons vu le joueur effectuer son premier coup, ce à quoi nous nous attendons à peu près à sa moyenne au bâton. Le domaine de la distribution bêta est (0, 1)
, tout comme une probabilité, donc nous savons déjà que nous sommes sur la bonne voie, mais la pertinence de la bêta pour cette tâche va bien au-delà.
Nous nous attendons à ce que la moyenne de frappe du joueur pendant toute la saison soit très probablement dans les environs .27
, mais qu'elle pourrait varier raisonnablement de .21
à .35
. Ceci peut être représenté avec une distribution Beta avec les paramètres et :β = 219α=81β=219
curve(dbeta(x, 81, 219))
Je suis venu avec ces paramètres pour deux raisons:
- La moyenne estαα+β=8181+219=.270
- Comme vous pouvez le constater dans l'intrigue, cette distribution se situe presque entièrement dans
(.2, .35)
la fourchette raisonnable d'une fourchette moyenne.
Vous avez demandé ce que représente l'axe des x dans un graphe de densité de distribution bêta; ici, il représente sa moyenne au bâton. Remarquez donc que dans ce cas, non seulement l’axe des ordonnées est une probabilité (ou plus précisément une densité de probabilité), mais l’axe des x l’est également (la moyenne au bâton n’est qu’une probabilité de toucher, après tout)! La distribution bêta représente une distribution de probabilité de probabilités .
Mais voici pourquoi la distribution bêta est si appropriée. Imaginez que le joueur obtienne un seul coup. Son record pour la saison est maintenant 1 hit; 1 at bat
. Nous devons ensuite mettre à jour nos probabilités - nous voulons déplacer cette courbe entière sur un peu pour refléter nos nouvelles informations. Bien que le calcul pour prouver cela soit un peu compliqué ( c'est montré ici ), le résultat est très simple . La nouvelle distribution bêta sera:
Beta(α0+hits,β0+misses)
Où et sont les paramètres avec lesquels nous avons commencé - c'est-à-dire 81 et 219. Ainsi, dans ce cas, a augmenté de 1 (son seul résultat), alors que n'a pas augmenté du tout (pas encore ). Cela signifie que notre nouvelle distribution est , ou:α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
Notez que cela a à peine changé - le changement est en effet invisible à l'œil nu! (C'est parce qu'un coup ne veut vraiment rien dire).
Cependant, plus le joueur frappe au cours de la saison, plus la courbe sera modifiée pour tenir compte des nouvelles preuves, et plus elle diminuera d'autant plus que nous avons davantage de preuves. Disons qu'au milieu de la saison, il a battu le bâton 300 fois, ce qui lui a valu une centaine de fois. La nouvelle distribution serait ou:Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Notez que la courbe est maintenant à la fois plus fine et décalée vers la droite (moyenne au bâton plus élevée) qu'auparavant. Nous avons une meilleure idée de ce qu'est la moyenne au bâton du joueur.
L'un des résultats les plus intéressants de cette formule est la valeur attendue de la distribution bêta résultante, qui est fondamentalement votre nouvelle estimation. Rappelons que la valeur attendue de la distribution bêta est . Ainsi, après 100 succès de 300 attaques réelles , la valeur attendue de la nouvelle distribution bêta est - remarquez qu'elle est inférieure à l'estimation naïve de , mais supérieur à l’estimation avec laquelle vous avez commencé la saison (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). Vous remarquerez peut-être que cette formule revient à ajouter une "avance" au nombre de hits et de non-hits d'un joueur - vous dites "démarrez-le dans la saison avec 81 hits et 219 non-coups" ).
Ainsi, la distribution bêta est la meilleure solution pour représenter une distribution probabiliste de probabilités - le cas où nous ne savons pas ce qu’est une probabilité à l’avance, mais nous avons des hypothèses raisonnables.