Distribution bêta lors du retournement d'une pièce

Le livre bayésien de Kruschke dit, concernant l'utilisation d'une distribution bêta pour lancer une pièce,

Par exemple, si nous n'avons aucune connaissance préalable autre que la connaissance que la pièce a un côté tête et un côté queue, cela revient à avoir précédemment observé une tête et une queue, ce qui correspond à a = 1 et b = 1.

Pourquoi aucune information ne reviendrait à avoir vu une tête et une queue - 0 tête et 0 queue me semble plus naturel.

probability bayesian beta-distribution

— Hatchepsout
source

(+1) La citation est trompeuse car elle invite le lecteur à assimiler deux sens très différents de «observer». Le sens utilisé ici est d'avoir inspecté la pièce elle-même - en fait, cela signifie que vous comprenez la configuration expérimentale. Mais la conclusion que cela implique dépend de la réinterprétation de «observer» dans le sens différent d'avoir exécuté l'expérience deux fois au cours de laquelle un résultat était des têtes et des autres queues. Ce genre de tour de passe-passe logique est une dérobade intellectuelle; cela fait seulement apparaître les méthodes bayésiennes comme arbitraires et logiquement glissantes, ce qui est dommage.

a = b = 1

$a=b=1$

— whuber

La citation est fausse: il n'y a aucune justification pour un a priori de Beta (1, 1).

— Neil G

On pourrait tout aussi bien affirmer qu'il s'agit d'informations d'une seule observation - une demi-tête / une demi-queue.

— Glen_b -Reinstate Monica

Veuillez garder à l'esprit l'objectif prévu de ce passage dans le livre. C'est censé être une justification intuitive simple pour les utilisateurs appliqués débutants , évidemment pas un argument mathématique et certainement pas une affirmation que la version bêta (1,1) est la meilleure ou la seule vague avant. Ailleurs dans le livre, je m'efforce de montrer que les variations modestes dans les prieurs vagues ne font aucune différence substantielle dans le postérieur quand il y a une quantité modérément importante de données. (Sauf pour les facteurs Bayes, bien sûr, qui sont très sensibles au prieur!) Dans d'autres écrits, j'ai discuté du Haldane avant.

— John K. Kruschke

La citation est un "tour de passe-passe logique" (grande expression!), Comme l'a noté @whuber dans les commentaires au PO. La seule chose que nous pouvons vraiment dire après avoir vu que la pièce a une tête et une queue, c'est que les événements "tête" et "queue" ne sont pas impossibles. Ainsi, nous pourrions rejeter un a priori discret qui met toute la masse de probabilité sur "tête" ou "queue". Mais cela ne mène pas, en soi, à l'uniforme préalable: la question est beaucoup plus subtile. Résumons tout d'abord un peu de contexte. Nous considérons le modèle conjugué bêta-binominal pour l'inférence bayésienne de la probabilité de têtes de pièces, étant donné lancers de pièces indépendants et identiquement distribués (conditionnellement sur ). $\theta$ $n$ $\theta$ $p(\theta|x)$ quand on observe têtes dans lancers: $x$ $n$

p (θ | x) = B e t a (x + α, n - x + β)

$p(\theta|x) = Beta(x+\alpha, n-x+\beta)$

on peut dire que et jouent les rôles d'un "nombre antérieur de têtes" et d'un "nombre antérieur de queues" (pseudotriaux), et peut être interprété comme une taille d'échantillon efficace. Nous pourrions également arriver à cette interprétation en utilisant l'expression bien connue de la moyenne postérieure comme moyenne pondérée de la moyenne précédente et de la moyenne de l'échantillon . $\alpha$ $\beta$ $\alpha+\beta$ $\frac{\alpha}{\alpha+\beta}$ $\frac{x}{n}$

En regardant , nous pouvons faire deux considérations: $p(\theta|x)$

comme nous n'avons aucune connaissance préalable de (ignorance maximale), nous nous attendons intuitivement à ce que la taille effective de l'échantillon soit "petite". S'il était grand, le prieur incorporerait beaucoup de connaissances. Une autre façon de voir cela est de noter que si et sont "petits" par rapport à et , la probabilité postérieure ne dépendra pas beaucoup de nos antérieurs, car et . Nous nous attendrions à ce qu'un a priori qui n'intègre pas beaucoup de connaissances devienne rapidement hors de propos à la lumière de certaines données. $\theta$ $\alpha+\beta$ $\alpha$ $\beta$ $x$ $n-x$ $x+\alpha\approx x$ $n-x+\beta\approx n-x$
De plus, comme est la moyenne antérieure et que nous n'avons aucune connaissance préalable de la distribution de , nous nous attendons à ce que . Ceci est un argument de symétrie - si nous ne savons pas mieux, nous ne nous attendrions pas a priori à ce que la distribution soit biaisée vers 0 ou vers 1. La distribution Beta est $\mu_{prior}=\frac{\alpha}{\alpha+\beta}$ $\theta$ $\mu_{prior}=0.5$

$F (θ | α, β) = \frac{Γ (α + β)}{Γ (α) + Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}$ $f(\theta|\alpha,\beta)=\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) +\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
Cette expression n'est symétrique autour de si . $\theta=0.5$ $\alpha=\beta$

Pour ces deux raisons, quel que soit le précédent (appartenant à la famille Beta - rappelez-vous, modèle conjugué!) Que nous choisissons d'utiliser, nous nous attendons intuitivement à ce que et soit "petit". Nous pouvons voir que les trois priors non informatifs couramment utilisés pour le modèle bêta-binomial partagent ces traits, mais à part cela, ils sont assez différents. Et cela est évident: aucune connaissance préalable, ou "ignorance maximale", n'est pas une définition scientifique, donc quel type de prieur exprime "l'ignorance maximale", c'est-à-dire ce qui est un prieur non informatif, dépend de ce que vous entendez réellement par "maximum". ignorance". $\alpha=\beta=c$ $c$

nous pourrions choisir un a priori qui dit que toutes les valeurs de sont équiprobables, car nous ne savons pas mieux. Encore une fois, un argument de symétrie. Cela correspond à : $\theta$ $\alpha=\beta=1$

$F (θ | 1, 1) = \frac{Γ (2)}{2 Γ (1)} θ^{0} (1 - θ)^{0} = 1$ $f(\theta|1,1)=\frac{\Gamma(2)}{2\Gamma(1)}\theta^{0}(1-\theta)^{0}=1$
pour , c'est-à-dire, l'a priori uniforme utilisé par Kruschke. Plus formellement, en écrivant l'expression de l'entropie différentielle de la distribution bêta, vous pouvez voir qu'elle est maximisée lorsque . Or, l'entropie est souvent interprétée comme une mesure de "la quantité d'informations" véhiculée par une distribution: une entropie plus élevée correspond à moins d'informations. Ainsi, vous pourriez utiliser ce principe d'entropie maximale pour dire qu'à l'intérieur de la famille Beta, le prieur qui contient le moins d'informations (ignorance maximale) est ce prieur uniforme. $\theta\in[0,1]$ $\alpha=\beta=1$
Vous pouvez choisir un autre point de vue, celui utilisé par le PO, et dire qu'aucune information ne correspond à n'avoir vu ni tête ni queue, c'est-à-dire

$α = β = 0 \Rightarrow π (θ) \propto θ^{- 1} (1 - θ)^{- 1}$ $\alpha=\beta=0 \Rightarrow \pi(\theta) \propto \theta^{-1}(1-\theta)^{-1}$
Le prieur que nous obtenons de cette façon s'appelle le prieur Haldane . La fonction a un petit problème - l'intégrale sur est infinie, c'est-à-dire, quelle que soit la constante de normalisation, elle ne peut pas être transformé en un bon pdf. En fait, le Haldane a priori est un pmf propre , qui met la probabilité 0,5 sur , 0,5 sur et 0 probabilité sur toutes les autres valeurs pour . Cependant, ne nous laissons pas emporter - pour un paramètre continu , les priors qui ne correspondent pas à un pdf correct sont appelés priors incorrects $\theta^{-1}(1-\theta)^{-1}$ $I=[0, 1]$ $\theta=0$ $\theta=1$ $\theta$ $\theta$ . Comme, comme indiqué précédemment, tout ce qui importe pour l'inférence bayésienne est la distribution postérieure, des prieurs incorrects sont admissibles, tant que la distribution postérieure est correcte. Dans le cas du Haldane prior, nous pouvons prouver que le pdf postérieur est correct si notre échantillon contient au moins un succès et un échec. Ainsi, nous ne pouvons utiliser le Haldane avant que lorsque nous observons au moins une tête et une queue.

Il y a un autre sens dans lequel le Haldane a priori peut être considéré comme non informatif: la moyenne de la distribution postérieure est maintenant , c'est-à-dire la fréquence d'échantillonnage des têtes, qui est l'estimation MLE fréquentiste de pour le modèle binomial du problème de retournement de pièces. De plus, les intervalles crédibles pour correspondent aux intervalles de confiance de Wald. Puisque les méthodes fréquentistes ne spécifient pas un a priori, on pourrait dire que le a priori de Haldane est non informatif, ou correspond à une connaissance a priori nulle, car il conduit à la "même" inférence qu'un fréquentiste ferait. $\frac{\alpha + x}{\alpha + \beta + n}=\frac{x}{n}$ $\theta$ $\theta$
Enfin, vous pouvez utiliser un a priori qui ne dépend pas de la paramétrisation du problème, c'est-à-dire l'a priori de Jeffreys, qui pour le modèle bêta-binomial correspond à

$α = β = \frac{1}{2} \Rightarrow π (θ) \propto θ^{- \frac{1}{2}} (1 - θ)^{- \frac{1}{2}}$ $\alpha=\beta=\frac{1}{2} \Rightarrow \pi(\theta) \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}}$
ainsi avec une taille d'échantillon effective de 1. Le Jeffreys a l'avantage d'être invariant sous reparamétrisation de l'espace des paramètres. Par exemple, l'a priori uniforme attribue une probabilité égale à toutes les valeurs de , la probabilité de l'événement "tête". Cependant, vous pouvez décider de paramétrer ce modèle en termes de log-odds d'événement "head", au lieu de . Quel est le prieur qui exprime "l'ignorance maximale" en termes de cotes de journal, c'est-à-dire qui dit que toutes les cotes de journal possibles pour l'événement "tête" sont équiprobables? C'est le Haldane avant, comme le montre cette réponse (légèrement cryptique) $\theta$ $\lambda=log(\frac{\theta}{1-\theta})$ $\theta$ . Au lieu de cela, le Jeffreys est invariant sous tous les changements de métrique. Jeffreys a déclaré qu'un a priori qui n'a pas cette propriété est en quelque sorte informatif car il contient des informations sur la métrique que vous avez utilisée pour paramétrer le problème. Son prieur n'en a pas.

Pour résumer, il n'y a pas qu'un seul choix sans équivoque pour un a priori non informatif dans le modèle bêta-binomial. Ce que vous choisissez dépend de ce que vous entendez par zéro connaissance préalable et des objectifs de votre analyse.

— DeltaIV
source

C'est clairement incorrect. L'observation de 1 tête et 1 queue signifie que (il est impossible d'avoir une pièce toutes têtes) et (il est impossible d'avoir une pièce toutes queues). La distribution uniforme n'est pas cohérente avec cela. Ce qui est cohérent, c'est une Beta (2,2). De la solution bayésienne au problème de retournement avec un a priori de Laplace (ie uniforme) sur le , la probabilité postérieure est . $p(\theta=0)=0$ $p(\theta=1)=0$ $\theta$ $p(\theta)={\rm Beta}(h+1,(N-h)+1)$

— user23856
source

J'ai du mal à comprendre votre réponse.

— Michael R. Chernick

Votre conclusion selon laquelle "la distribution uniforme n'est pas cohérente avec cela" est incorrecte. Il confond la densité (qui doit être entendue par " ") avec la probabilité . La distribution uniforme (continue) attribue une probabilité nulle à tout événement atomique tel que ou .

p

$p$

θ = 0

$\theta=0$

θ = 1

$\theta=1$

— whuber