La citation est un "tour de passe-passe logique" (grande expression!), Comme l'a noté @whuber dans les commentaires au PO. La seule chose que nous pouvons vraiment dire après avoir vu que la pièce a une tête et une queue, c'est que les événements "tête" et "queue" ne sont pas impossibles. Ainsi, nous pourrions rejeter un a priori discret qui met toute la masse de probabilité sur "tête" ou "queue". Mais cela ne mène pas, en soi, à l'uniforme préalable: la question est beaucoup plus subtile. Résumons tout d'abord un peu de contexte. Nous considérons le modèle conjugué bêta-binominal pour l'inférence bayésienne de la probabilité de têtes de pièces, étant donné lancers de pièces indépendants et identiquement distribués (conditionnellement sur ).n θ p ( θ | x ) x nθnθp(θ|x)quand on observe têtes dans lancers:xn
p(θ|x)=Beta(x+α,n−x+β)
on peut dire que et jouent les rôles d'un "nombre antérieur de têtes" et d'un "nombre antérieur de queues" (pseudotriaux), et peut être interprété comme une taille d'échantillon efficace. Nous pourrions également arriver à cette interprétation en utilisant l'expression bien connue de la moyenne postérieure comme moyenne pondérée de la moyenne précédente et de la moyenne de l'échantillon .β α + β ααβα+β xαα+βXn
En regardant , nous pouvons faire deux considérations:p ( θ | x )
- comme nous n'avons aucune connaissance préalable de (ignorance maximale), nous nous attendons intuitivement à ce que la taille effective de l'échantillon soit "petite". S'il était grand, le prieur incorporerait beaucoup de connaissances. Une autre façon de voir cela est de noter que si et sont "petits" par rapport à et , la probabilité postérieure ne dépendra pas beaucoup de nos antérieurs, car
et . Nous nous attendrions à ce qu'un a priori qui n'intègre pas beaucoup de connaissances devienne rapidement hors de propos à la lumière de certaines données.α + β α β x n - x x + α ≈ x n - x + β ≈ n - xθα + βαβXn - xx + α ≈ xn - x + β≈ n - x
De plus, comme est la moyenne antérieure et que nous n'avons aucune connaissance préalable de la distribution de
, nous nous attendons à ce que . Ceci est un argument de symétrie - si nous ne savons pas mieux, nous ne nous attendrions pas a priori à ce que la distribution soit biaisée vers 0 ou vers 1. La distribution Beta est θμprior=0,5μp r i o r= αα + βθμp r i o r= 0,5
F( θ | α , β) = Γ ( α + β)Γ ( α ) + Γ ( β)θα - 1( 1 - θ )β- 1
Cette expression n'est symétrique autour de si
.α = βθ = 0,5α = β
Pour ces deux raisons, quel que soit le précédent (appartenant à la famille Beta - rappelez-vous, modèle conjugué!) Que nous choisissons d'utiliser, nous nous attendons intuitivement à ce que et soit "petit". Nous pouvons voir que les trois priors non informatifs couramment utilisés pour le modèle bêta-binomial partagent ces traits, mais à part cela, ils sont assez différents. Et cela est évident: aucune connaissance préalable, ou "ignorance maximale", n'est pas une définition scientifique, donc quel type de prieur exprime "l'ignorance maximale", c'est-à-dire ce qui est un prieur non informatif, dépend de ce que vous entendez réellement par "maximum". ignorance".cα = β= cc
nous pourrions choisir un a priori qui dit que toutes les valeurs de sont équiprobables, car nous ne savons pas mieux. Encore une fois, un argument de symétrie. Cela correspond à :α = β = 1θα = β= 1
F( θ | 1 , 1 ) = Γ ( 2 )2 Γ ( 1 )θ0( 1 - θ )0= 1
pour , c'est-à-dire, l'a priori uniforme utilisé par Kruschke. Plus formellement, en écrivant l'expression de l'entropie différentielle de la distribution bêta, vous pouvez voir qu'elle est maximisée lorsque
. Or, l'entropie est souvent interprétée comme une mesure de "la quantité d'informations" véhiculée par une distribution: une entropie plus élevée correspond à moins d'informations. Ainsi, vous pourriez utiliser ce principe d'entropie maximale pour dire qu'à l'intérieur de la famille Beta, le prieur qui contient le moins d'informations (ignorance maximale) est ce prieur uniforme.α = β = 1θ ∈ [ 0 , 1 ]α = β= 1
Vous pouvez choisir un autre point de vue, celui utilisé par le PO, et dire qu'aucune information ne correspond à n'avoir vu ni tête ni queue, c'est-à-dire
α = β= 0 ⇒ π( θ ) ∝ θ- 1( 1 - θ )- 1
Le prieur que nous obtenons de cette façon s'appelle le prieur Haldane . La fonction a un petit problème - l'intégrale sur est infinie, c'est-à-dire, quelle que soit la constante de normalisation, elle ne peut pas être transformé en un bon pdf. En fait, le Haldane a priori est un pmf propre , qui met la probabilité 0,5 sur , 0,5 sur et 0 probabilité sur toutes les autres valeurs pour . Cependant, ne nous laissons pas emporter - pour un paramètre continu , les priors qui ne correspondent pas à un pdf correct sont appelés priors incorrects I = [ 0 , 1 ] θ = 0 θ = 1 θ θθ- 1( 1 - θ )- 1je= [ 0 , 1 ]θ = 0θ = 1θθ. Comme, comme indiqué précédemment, tout ce qui importe pour l'inférence bayésienne est la distribution postérieure, des prieurs incorrects sont admissibles, tant que la distribution postérieure est correcte. Dans le cas du Haldane prior, nous pouvons prouver que le pdf postérieur est correct si notre échantillon contient au moins un succès et un échec. Ainsi, nous ne pouvons utiliser le Haldane avant que lorsque nous observons au moins une tête et une queue.
Il y a un autre sens dans lequel le Haldane a priori peut être considéré comme non informatif: la moyenne de la distribution postérieure est maintenant
, c'est-à-dire la fréquence d'échantillonnage des têtes, qui est l'estimation MLE fréquentiste de
pour le modèle binomial du problème de retournement de pièces. De plus, les intervalles crédibles pour correspondent aux intervalles de confiance de Wald. Puisque les méthodes fréquentistes ne spécifient pas un a priori, on pourrait dire que le a priori de Haldane est non informatif, ou correspond à une connaissance a priori nulle, car il conduit à la "même" inférence qu'un fréquentiste ferait.α + xα + β+ n= xnθθ
Enfin, vous pouvez utiliser un a priori qui ne dépend pas de la paramétrisation du problème, c'est-à-dire l'a priori de Jeffreys, qui pour le modèle bêta-binomial correspond à
α = β= 12⇒ π( θ ) ∝ θ- 12( 1 - θ )- 12
ainsi avec une taille d'échantillon effective de 1. Le Jeffreys a l'avantage d'être invariant sous reparamétrisation de l'espace des paramètres. Par exemple, l'a priori uniforme attribue une probabilité égale à toutes les valeurs de , la probabilité de l'événement "tête". Cependant, vous pouvez décider de paramétrer ce modèle en termes de log-odds d'événement "head", au lieu de . Quel est le prieur qui exprime "l'ignorance maximale" en termes de cotes de journal, c'est-à-dire qui dit que toutes les cotes de journal possibles pour l'événement "tête" sont équiprobables? C'est le Haldane avant, comme le montre cette réponse (légèrement cryptique)θλ = l o g( θ1 - θ)θ. Au lieu de cela, le Jeffreys est invariant sous tous les changements de métrique. Jeffreys a déclaré qu'un a priori qui n'a pas cette propriété est en quelque sorte informatif car il contient des informations sur la métrique que vous avez utilisée pour paramétrer le problème. Son prieur n'en a pas.
Pour résumer, il n'y a pas qu'un seul choix sans équivoque pour un a priori non informatif dans le modèle bêta-binomial. Ce que vous choisissez dépend de ce que vous entendez par zéro connaissance préalable et des objectifs de votre analyse.