Quelle est l'intuition derrière la distribution bêta?


438

Déni de responsabilité: je ne suis pas un statisticien mais un ingénieur en logiciel. La plupart de mes connaissances en statistiques proviennent de mon auto-éducation, il me reste donc beaucoup de lacunes dans la compréhension de concepts qui peuvent sembler triviaux pour d'autres personnes ici. Je serais donc très reconnaissant si les réponses incluaient des termes moins spécifiques et plus d'explications. Imaginez que vous parlez à votre grand-mère :)

J'essaie de comprendre la nature de la distribution bêta - à quoi sert-elle et comment l'interpréter dans chaque cas? Par exemple, si nous parlions de distribution normale, on pourrait parler d’heure d’arrivée d’un train: le plus souvent, il arrive juste à temps, un peu moins c’est 1 minute plus tôt ou 1 minute en retard et très rarement il arrive avec différence de 20 minutes de la moyenne. La distribution uniforme décrit, en particulier, la chance de chaque billet à la loterie. La distribution binomiale peut être décrite avec des retournements de pièces, etc. Mais existe-t-il une telle explication intuitive de la distribution bêta ?

Disons et . La distribution bêta dans ce cas se présente comme suit (générée dans R):β = .5 B ( α , β )α=.99β=.5B(α,β)

entrez la description de l'image ici

Mais qu'est-ce que cela signifie réellement? L'axe des Y est évidemment une densité de probabilité, mais qu'est-ce qui est sur l'axe des X?

J'apprécierais beaucoup toute explication, soit avec cet exemple, soit avec un autre.


13
L'axe des ordonnées n'est pas une probabilité (ce qui est évident car, par définition, une probabilité ne peut pas être en dehors de l'intervalle , mais ce graphique s'étend jusqu'à et, en principe, jusqu'à ). C'est une densité de probabilité : une probabilité par unité de (et vous avez décrit comme un taux). 50 x x[0,1]50xx
whuber

4
@ Whuber: Ouais, je comprends ce qu'est PDF - c'était juste une erreur dans ma description. Merci pour une note valide!
copain

1
Je vais essayer de trouver la référence, mais je connais certaines des formes les plus bizarres de la distribution bêta généralisée sous la forme d' ayant des applications telles que la physique. En outre, vous pouvez l’ajuster aux données expertes (min, mode, max) dans des environnements pauvres en données et c’est souvent mieux que d’utiliser une distribution triangulaire (malheureusement souvent utilisée par les IE). a+(ba)Beta(α1,α2)
SecretAgentMan

Vous n'avez évidemment jamais voyagé avec la compagnie de chemin de fer Deutsche Bahn. Vous seriez moins optimiste.
Henning le

Réponses:


622

La version courte est que la distribution bêta peut être comprise comme représentant une distribution de probabilités - c'est-à-dire qu'elle représente toutes les valeurs possibles d'une probabilité lorsque nous ne savons pas quelle est cette probabilité. Voici mon explication intuitive préférée de ceci:

Toute personne qui suit le baseball connaît bien les moyennes au bâton - simplement le nombre de fois où un joueur obtient un coup de base divisé par le nombre de fois où il monte au bâton (il ne s'agit donc que d'un pourcentage entre 0et 1). .266est en général considéré comme une moyenne au bâton, alors qu’il .300est considéré comme excellent.

Imaginez que nous ayons un joueur de baseball et que nous voulions prédire quelle sera sa moyenne au bâton pour la saison. Vous pouvez dire que nous pouvons simplement utiliser sa moyenne au bâton jusqu'à présent - mais ce sera une mesure très médiocre en début de saison! Si un joueur monte au bâton une fois et obtient un simple, sa moyenne au bâton est brièvement 1.000, alors que s'il frappe, sa moyenne au bâton est de 0.000. Cela ne va pas beaucoup mieux si vous jouez cinq ou six fois. Vous pourriez avoir une série de chance et une moyenne 1.000, ou une série de malchance et obtenir une moyenne 0, qui ne sont pas un prédicteur médiocre de la façon dont vous battez cette saison.

Pourquoi votre moyenne au bâton dans les premiers coups n’est-elle pas un bon prédicteur de votre moyenne au bâton? Quand le premier joueur à l'attaque est un retrait, pourquoi personne ne prédit-il qu'il n'aura jamais de coup sûr toute la saison? Parce que nous entrons avec des attentes antérieures. Nous savons que dans l’histoire, la plupart des moyennes au bâton au cours d’une saison ont oscillé entre .215et .360, à quelques rares exceptions près. Nous savons que si un joueur obtient quelques retraits au bâton au début, cela pourrait indiquer qu'il finira un peu moins bien que la moyenne, mais nous savons qu'il ne s'écartera probablement pas de cette fourchette.

Compte tenu de notre problème de moyenne d'ouate en feuille, qui peut être représenté par une distribution binomiale (une série de réussites et d' échecs), la meilleure façon de représenter ces attentes avant (ce que nous dans les statistiques des appels juste avant ) est avec la version bêta distribution- il est dit: avant que nous ayons vu le joueur effectuer son premier coup, ce à quoi nous nous attendons à peu près à sa moyenne au bâton. Le domaine de la distribution bêta est (0, 1), tout comme une probabilité, donc nous savons déjà que nous sommes sur la bonne voie, mais la pertinence de la bêta pour cette tâche va bien au-delà.

Nous nous attendons à ce que la moyenne de frappe du joueur pendant toute la saison soit très probablement dans les environs .27, mais qu'elle pourrait varier raisonnablement de .21à .35. Ceci peut être représenté avec une distribution Beta avec les paramètres et :β = 219α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Je suis venu avec ces paramètres pour deux raisons:

  • La moyenne estαα+β=8181+219=.270
  • Comme vous pouvez le constater dans l'intrigue, cette distribution se situe presque entièrement dans (.2, .35)la fourchette raisonnable d'une fourchette moyenne.

Vous avez demandé ce que représente l'axe des x dans un graphe de densité de distribution bêta; ici, il représente sa moyenne au bâton. Remarquez donc que dans ce cas, non seulement l’axe des ordonnées est une probabilité (ou plus précisément une densité de probabilité), mais l’axe des x l’est également (la moyenne au bâton n’est qu’une probabilité de toucher, après tout)! La distribution bêta représente une distribution de probabilité de probabilités .

Mais voici pourquoi la distribution bêta est si appropriée. Imaginez que le joueur obtienne un seul coup. Son record pour la saison est maintenant 1 hit; 1 at bat. Nous devons ensuite mettre à jour nos probabilités - nous voulons déplacer cette courbe entière sur un peu pour refléter nos nouvelles informations. Bien que le calcul pour prouver cela soit un peu compliqué ( c'est montré ici ), le résultat est très simple . La nouvelle distribution bêta sera:

Beta(α0+hits,β0+misses)

Où et sont les paramètres avec lesquels nous avons commencé - c'est-à-dire 81 et 219. Ainsi, dans ce cas, a augmenté de 1 (son seul résultat), alors que n'a pas augmenté du tout (pas encore ). Cela signifie que notre nouvelle distribution est , ou:α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

entrez la description de l'image ici

Notez que cela a à peine changé - le changement est en effet invisible à l'œil nu! (C'est parce qu'un coup ne veut vraiment rien dire).

Cependant, plus le joueur frappe au cours de la saison, plus la courbe sera modifiée pour tenir compte des nouvelles preuves, et plus elle diminuera d'autant plus que nous avons davantage de preuves. Disons qu'au milieu de la saison, il a battu le bâton 300 fois, ce qui lui a valu une centaine de fois. La nouvelle distribution serait ou:Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

entrez la description de l'image ici

Notez que la courbe est maintenant à la fois plus fine et décalée vers la droite (moyenne au bâton plus élevée) qu'auparavant. Nous avons une meilleure idée de ce qu'est la moyenne au bâton du joueur.

L'un des résultats les plus intéressants de cette formule est la valeur attendue de la distribution bêta résultante, qui est fondamentalement votre nouvelle estimation. Rappelons que la valeur attendue de la distribution bêta est . Ainsi, après 100 succès de 300 attaques réelles , la valeur attendue de la nouvelle distribution bêta est - remarquez qu'elle est inférieure à l'estimation naïve de , mais supérieur à l’estimation avec laquelle vous avez commencé la saison (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). Vous remarquerez peut-être que cette formule revient à ajouter une "avance" au nombre de hits et de non-hits d'un joueur - vous dites "démarrez-le dans la saison avec 81 hits et 219 non-coups" ).

Ainsi, la distribution bêta est la meilleure solution pour représenter une distribution probabiliste de probabilités - le cas où nous ne savons pas ce qu’est une probabilité à l’avance, mais nous avons des hypothèses raisonnables.


5
@ffriend: Heureux que ça ait aidé - j'espère que vous suivez le baseball (sinon je me demande si c'est compréhensible!)
David Robinson

11
Voici un exemple similaire de John Cook qui utilise les classements binaires des vendeurs Amazon avec un nombre différent de commentaires. La discussion sur le choix d'un prior dans les commentaires est particulièrement éclairante: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

4
Vous devez souligner que l’ancien préalable n’a pas besoin d’être bêta-distribué (à moins d’aller avec l’ancien des Jeffreys, - seule la probabilité doit être distribuée bêta.α0=β0=1/2
Neil G

5
+ J'aime votre explication sur la façon dont vous mettez à jour la distribution lorsque vous avez plus de données.
Mike Dunlavey

2
@ user27997 Ceux-ci ont donné la moyenne souhaitée de 0,27 et un écart type très réaliste pour les moyennes au bâton (environ 0,025). Soit dit en passant, je donne une explication de la façon de calculer α et β à partir d' une moyenne souhaitée et la variance ici .
David Robinson

48

Une distribution bêta est utilisée pour modéliser des éléments ayant une plage limitée, comme 0 à 1.

Des exemples sont la probabilité de succès d'une expérience n'ayant que deux résultats, comme le succès et l'échec. Si vous effectuez un nombre limité d'expériences et que certaines réussissent, vous pouvez représenter ce que cela vous dit par une distribution bêta.

Un autre exemple est la statistique des commandes . Par exemple, si vous générez plusieurs nombres aléatoires uniformes (disons 4) et les triez, quelle est la distribution du troisième?

Je les utilise pour comprendre le diagnostic de performance logicielle par échantillonnage. Si vous arrêtez un programme au hasard fois, et de ces fois où vous le voyez faire quelque chose dont vous pourriez réellement vous débarrasser, et , alors la fraction de temps à sauvegarder en le faisant est représentée par , et le facteur d'accélération a une distribution BetaPrime .s s > 1 B e t a ( s + 1 , ( n - s ) +nss>1Beta(s+1,(ns)+1)

Plus à ce sujet ...


41

La distribution bêta apparaît également comme une statistique d'ordre pour un échantillon aléatoire de distributions uniformes indépendantes sur .(0,1)

Précisément, laissez , , être variables aléatoires indépendantes, ayant chacune la distribution uniforme sur . Soit , , les statistiques d'ordre de l'échantillon aléatoire , définies en triant les valeurs de , , par ordre croissant. En particulier et . Alors on peut montrer que pour tout .U n n ( 0 , 1 ) U ( 1 )U ( n ) ( U 1 , , U n ) U 1U n U ( 1 ) = min ( U i ) U ( n ) = max ( U i )U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

Ce résultat montre que les distributions bêta apparaissent naturellement en mathématiques et qu'il a des applications intéressantes en mathématiques.


28

Il y a deux motivations principales:

Premièrement, la distribution bêta est conjuguée avant la distribution de Bernoulli. Cela signifie que si vous avez une probabilité inconnue, telle que le biais d'une pièce, que vous estimez par le biais de lancers de pièces répétés, la probabilité induite sur le biais inconnu par une séquence de lancers de pièces est bêta-distribuée.

Deuxièmement, la distribution bêta étant une famille exponentielle, la distribution bêta d'entropie est la conséquence maximale pour un ensemble de statistiques suffisantes. Dans le cas de la distribution bêta, ces statistiques sont et pour dans . Cela signifie que si vous ne conservez que la mesure moyenne de ces statistiques suffisantes pour un ensemble d'échantillons , l'hypothèse minimale que vous pouvez faire à propos de la distribution des échantillons est qu'il est bêta-distribué.log ( 1 - x ) x [ 0 , 1 ] x 1 , , x nlog(x)log(1x)x[0,1]x1,,xn

La distribution bêta n'est pas spéciale pour modéliser généralement les choses sur [0,1] car de nombreuses distributions peuvent être tronquées à ce support et sont plus applicables dans de nombreux cas.


23

entrez la description de l'image ici

Supposons qu'un vendeur sur un site Web de commerce électronique obtienne 500 évaluations, dont 400 bonnes et 100 mauvaises.

Nous pensons que ceci est le résultat d’une expérience de Bernoulli de longueur 500 qui a conduit à 400 succès (1 = bon) alors que la probabilité sous-jacente est inconnue.p

La qualité naïve en termes d’évaluation du vendeur est de 80%, car 0,8 = 400/500. Mais la «vraie» qualité en termes d’évaluation que nous ne connaissons pas.

Théoriquement, un vendeur avec une qualité "vraie" de aurait pu se retrouver avec 400 bons sur 500 avis.p=77%

L'intrigue de la barre Pointy dans l'image représente la fréquence de la fréquence il happend dans une simulation pour une donnée supposée « vraie » 400 de 500 notes étaient bonnes. Le graphique à barres est la densité de l'histogramme du résultat de la simulation.p

Et comme vous pouvez le voir, la courbe de densité de la distribution bêta pour et (orange) entoure étroitement le diagramme à barres (la densité de l’histogramme pour la simulation).β = 100 + 1α=400+1β=100+1

La distribution bêta définit donc essentiellement la probabilité que la probabilité de succès d'une expérience de Bernoulli soit compte tenu du résultat de l'expérience.p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intintuit-interpretation-of-the-beta-distribution/


3
Nous vous remercions de votre contribution! Je suis toutefois perplexe à propos de quelque chose: bien que la légende de l'histogramme indique des densités bêta , vous semblez prétendre que celles-ci décrivent également les résultats des simulations binomiales ("combien de fois cela se produit-il dans une simulation"). Mais les deux sont des choses différentes, même s’ils apparaissent assez proches dans l’illustration. (C'est une conséquence de la quasi-normalité de la bêta avec de grands paramètres et du théorème de la limite centrale pour les distributions binomiales.)
whuber

C'est un bon point! Mais je ne sais pas comment le reformuler correctement. Si je devais simplement tracer l'histogramme alors, bien sûr, vous ne verriez pas beaucoup de la densité étant donné sa magnitude. Donc oui, l'histogramme est en fait non seulement réduit, mais en fait la densité (estimée) de l'histogramme d'origine. Etant donné le nombre de passages, je pourrais aussi déterminer un facteur et le réduire linéairement, mais il aurait presque la même apparence, PLUS ce que je veux (en fait) comparer est la densité de bêta avec la densité du résultat de la simulation (le densité de l'histogramme d'origine).
Raffael

8

Jusqu'à présent, la prépondérance des réponses couvrait la raison pour laquelle les RV bêta étaient générés en tant que priorité pour un échantillon, et une réponse intelligente a permis de relier les RV bêta aux statistiques sur les commandes.

Les distributions bêta découlent également d’une simple relation entre deux RV Gamma (k_i, 1), i = 1,2, appellent X et Y. X / (X + Y) a une distribution bêta.

Les VR Gamma ont déjà leur raison d’être dans la modélisation des heures d’arrivée pour des événements indépendants; je ne vais donc pas répondre à cette question car ce n’est pas votre question. Mais une "fraction de temps" passée à effectuer l'une des deux tâches exécutées en séquence se prête naturellement à une distribution bêta.


1
+1 Merci d'avoir signalé cela à propos de l'utilisation de Gamma pour former une distribution bêta. J'ai entendu dire que si vous voulez généraliser la Beta dans un Dirichlet, vous mettez simplement plus de Gammas dans le dénominateur. Peut-être un statisticien le sait-il, mais pour moi, cela était vraiment utile pour examiner les intervalles de confiance d'une observation catégorique.
Mike Dunlavey

4

Mon intuition dit qu'elle "pèse" à la fois la proportion actuelle de succès " " et la proportion actuelle d'échec " ": . Où la constante est . Le est comme un "poids" pour la contribution du succès. La est comme un "poids" pour la contribution de l'échec. Vous disposez d'un espace de paramètres bidimensionnel (un pour la contribution des succès et un pour la contribution des échecs), ce qui rend difficile la réflexion et la compréhension.( 1 - x ) f ( x , α , β ) = constante x α - 1 ( 1 - x ) β - 1 1 / B ( α , β ) α βx(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβ


3

Dans l'exemple cité, les paramètres sont alpha = 81 et beta = 219 de l'année précédente [81 résultats sur 300 chez les chauves-souris ou (81 et 300 - 81 = 219)].

Je ne sais pas ce qu'ils appellent l'hypothèse préalable de 81 hits et de 219 outs, mais en anglais, c'est l'hypothèse a priori.

Notez que la courbe se déplace vers la gauche ou vers la droite à mesure que la saison avance, et que la probabilité modale se déplace vers la gauche ou la droite, mais qu'il y a toujours une courbe.

Je me demande si le Laa des grands nombres finit par s'imposer et ramène la moyenne au bâton à 0,270.

Pour estimer l'alpha et la bêta en général, il faudrait prendre le nombre complet d'occurrences antérieures (chez les chauves-souris), la moyenne au bâton telle que connue, obtenir le nombre total de touches (l'alpha), la version bêta ou le grand total moins les échecs) et le tour est joué - vous avez votre formule. Ensuite, travaillez les données supplémentaires comme indiqué.


2

La distribution bêta est très utile lorsque vous travaillez avec une distribution granulométrique. Ce n'est pas le cas lorsque vous souhaitez modéliser une distribution de grain; ce cas est préférable d'utiliser la distribution de Tanh qui n'est pas bornée à droite. F(X)=tanh((x/p)n)

Au fait, quoi de neuf si vous produisez une distribution de taille à partir d'une observation microscopique et que vous avez une distribution de particules en nombre, et que votre objectif est de travailler avec une distribution de volume? Il est presque obligatoire d'obtenir la distribution originale en nombre délimité à droite. Ainsi, la transformation est plus cohérente car vous êtes certain que dans la nouvelle distribution de volume, aucun mode, aucune médiane ni aucune taille moyenne n'apparaissent en dehors de l'intervalle sur lequel vous travaillez. En outre, vous évitez l'effet Groenland Africa.

La transformation est très facile si vous avez des formes régulières, comme une sphère ou un prisme. Vous devez ajouter trois unités au paramètre alpha de la distribution bêta du nombre et obtenir la distribution en volume.


1
Bienvenue sur le site. S'agissait-il d'une réponse à la question du PO? Pouvez-vous préciser en quoi cela concerne l'intuition de la distribution bêta?
gung

Veuillez éditer pour clarifier l'intuition d'une distribution bêta.
Glen_b

1

Je pense qu'il n'y a pas d'intuition derrière la distribution bêta! La distribution bêta est juste une distribution très flexible avec la gamme FIX! Et pour les nombres a et b, il est même facile de traiter. De plus, de nombreux cas spéciaux de la version bêta ont leur signification native, comme la distribution uniforme. Donc, si les données doivent être modélisées de la sorte, ou avec un peu plus de flexibilité, la version bêta est un très bon choix.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.