Pourquoi un avant sur la variance est-il considéré comme faible?


21

Contexte

L'un des faibles a priori sur variance les plus couramment utilisés est le gamma inverse avec les paramètres (Gelman 2006) .α=0.001,β=0.001

Cependant, cette distribution a un IC à 90% d'environ .[3×1019,]

library(pscl)
sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001))

[1] 3.362941e+19          Inf

À partir de cela, j'interprète que l' donne une faible probabilité que la variance soit très élevée, et la très faible probabilité que la variance soit inférieure à 1 .IG(0.001,0.001)P(σ<1|α=0.001,β=0.001)=0.006

pigamma(1, 0.001, 0.001)
[1] 0.006312353

Question

Suis-je en train de manquer quelque chose ou s'agit-il en fait d'une information préalable?

mise à jour pour clarifier, la raison pour laquelle je considérais cette information est parce qu'elle prétend très fortement que la variance est énorme et bien au-delà de l'échelle de presque toutes les variances jamais mesurées.

suivi Une méta-analyse d'un grand nombre d'estimations de la variance fournirait-elle un préalable plus raisonnable?


Référence

Gelman 2006. Distributions antérieures des paramètres de variance dans les modèles hiérarchiques . Analyse bayésienne 1 (3): 515–533


1
Un «vrai» a priori non informatif n'est pas une distribution. Il n'y a donc pas de probabilité antérieure telle que P (sigma <1).
Stéphane Laurent

Réponses:


38

En utilisant la distribution gamma inverse, nous obtenons:

p(σ2|α,β)(σ2)α1exp(βσ2)

Vous pouvez facilement voir que si et α 0 alors le gamma inverse approchera le Jeffreys avant. Cette distribution est appelée "non informative" car elle est une approximation correcte de la priorité Jeffreysβ0α0

p(σ2)1σ2

Ce qui n'est pas informatif pour les paramètres d'échelle voir page 18 ici par exemple , car cet a priori est le seul qui reste invariant sous un changement d'échelle (notez que l'approximation n'est pas invariante). Cela a une intégrale indéfinie de qui montre qu'elle est incorrecte si la plage de σ 2 comprend 0 ou . Mais ces cas ne sont que des problèmes en mathématiques - pas dans le monde réel. N'observez jamais réellement une valeur infinie de variance, et si la variance observée est nulle, vous avez des données parfaites!. Car vous pouvez définir une limite inférieure égale à L > 0 et une limite supérieure égale Ulog(σ2)σ20L>0 , et votre distribution est correcte.U<

Bien qu'il puisse sembler étrange que ce soit "non informatif" en ce qu'il préfère une petite variance aux grandes, mais ce n'est qu'à une seule échelle. Vous pouvez montrer que a une distribution uniforme incorrecte. Donc, cet avant ne favorise aucune échelle par rapport à toute autrelog(σ2)

Bien que cela ne soit pas directement lié à votre question, je suggérerais une "meilleure" distribution non informative en choisissant les limites supérieure et inférieure et dans le Jeffreys avant plutôt que et . Habituellement, les limites peuvent être définies assez facilement en réfléchissant à ce que signifie réellement dans le monde réel. Si c'était l'erreur dans une sorte de quantité physique - ne peut pas être plus petit que la taille d'un atome, ou la plus petite taille que vous puissiez observer dans votre expérience. PlusLUαβσ2LUne pouvait pas être plus grand que la terre (ou le soleil si vous vouliez être vraiment conservateur). De cette façon, vous conservez vos propriétés d'invariance, et c'est plus facile avant d'échantillonner à partir de: prendre , puis la valeur simulée as .q(b)Uniform(log(L),log(U))σ(b)2=exp(q(b))


5
+1 pour non seulement répondre à la question, mais aussi pour fournir des conseils utiles.
whuber

+1 - uniforme pour sur une "grande" plage est souvent un bon choix. Pour les composantes de variance d'un modèle hiérarchique, je pense que vous pouvez toujours entrer dans une quasi-inconvenance du postérieur si la plage est trop grande puisque vous approchez de nouveau de Jeffrey. Mais bien sûr, c'est une solution plus simple - ne choisissez pas d'énormes intervalles :)log(σ)
JMS

@JMS - dans un cadre héréditaire, les données ne "écrasent" pas la singularité à 0 (c'est-à-dire qu'une variance de niveau 2 pourrait être nulle). Donc, le prieur pour les petites valeurs compte. est un bon niveau 2 et une variance plus élevée a priori (je pense qu'il a aussi été appelé un "half Cauchy", il est similaire à F 1 , 1 -distribution). Il a des «queues épaisses» et est «robuste aux données» dans la mesure où, en cas de conflit préalable et de probabilité, la probabilité l'emporte. Aussi B e t a 2 ( 0 , 0 ) est le jeffreys avant. Beta2(1,1)F1,1Beta2(0,0)
probabilitéislogic

1
@probabilityislogic merci pour l'explication. Si je comprends bien, le gamma est sympa théoriquement parce que sa rage est et parce qu'il est conjugué à la normale, mais en application ces caractéristiques ne sont généralement pas requises. Mais quelle est la différence entre l'échantillonnage de σ e x p ( U ( l o g ( L ) , l o g ( U ) ) et σ U ( L , U ) ?[0,]σexp(U(log(L),log(U))σU(L,U)
David LeBauer

@probabilityislogic Vous ne connaissez pas votre notation, faites-vous référence à la version bêta prime? Si c'est le cas, c'est un choix intéressant. Pas la moitié de Cauchy cependant; c'est juste le Cauchy restreint à . Mais le premier bêta avec α = 1 , β = 1 / 2 a été appelé le "quasi Cauchy" IIRC(0,)α=1,β=1/2
JMS

10

C'est assez proche de l'appartement. Sa médiane est de 1,9 E298, presque le plus grand numéro un peut représenter en arithmétique flottante double précision. Comme vous le faites remarquer, la probabilité qu'il attribue à tout intervalle qui n'est pas vraiment énorme est vraiment faible. Difficile d'être moins informatif que ça!


Merci pour votre explication. J'ai rencontré des problèmes de convergence et j'ai été surpris de constater que tant de variables avec lesquelles je travaille ont des moyennes <1000 (c'est-à-dire si quelque chose est> 1000 g, elles sont mesurées en kg), et les variances sont à peu près du même ordre ordre de grandeur. Donc, je me rends compte que j'ai besoin de plus de priors qui intègrent ces informations même si je n'ai pas vraiment une bonne connaissance préalable de sa valeur ou comment elle est partitionnée.
David LeBauer

Selon le modèle, votre postérieur pourrait être très proche d'une mauvaise utilisation de cet avant
JMS
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.