Plat, conjugué et hyper-prieur. Que sont-ils?


15

Je lis actuellement sur les méthodes bayésiennes dans le calcul de l'évolution moléculaire par Yang. Dans la section 5.2, il parle des prieurs, et en particulier des non-informatifs / plats / vagues / diffus, conjugués et hyperpriors.

Cela pourrait demander une simplification excessive, mais quelqu'un pourrait-il expliquer simplement la différence entre ces types de priors et comment cela affecte le résultat d'une analyse / décisions que je prendrais pendant le processus d'une analyse bayésienne?

(Je ne suis pas statisticien et je ne fais que commencer sur la voie de l'apprentissage des analyses bayésiennes, donc plus c'est en termes profanes, mieux c'est)

Réponses:


15

En termes simples, un a priori plat / non informatif est utilisé lorsque l'on a peu ou pas de connaissances sur les données et donc qu'il a le moins d'effet sur les résultats de votre analyse (c'est-à-dire l'inférence postérieure).

Les distributions conjuguées sont celles dont les distributions a priori et postérieure sont identiques, et le prieur est appelé le prieur conjugué. Il est favorisé pour ses commodités algébriques , surtout lorsque la probabilité a une distribution sous forme de famille exponentielle (gaussienne, bêta, etc.). Ceci est extrêmement bénéfique lors de l'exécution de simulations postérieures utilisant l'échantillonnage de Gibbs.

Et enfin, imaginez qu'une distribution préalable est définie sur un paramètre de votre modèle, mais vous voulez ajouter un autre niveau de complexité / incertitude. Vous imposeriez alors une distribution a priori sur les paramètres du prieur précité, d'où le nom hyper- prior.

Je pense que l'analyse des données bayésiennes de Gelman est un bon début pour quiconque souhaite apprendre les statistiques bayésiennes :)


1
Deuxièmement, l'approbation de l'analyse des données bayésiennes.
Sycorax dit Réintégrer Monica

14

Au plus haut niveau, nous pouvons considérer toutes sortes de priors comme spécifiant une certaine quantité d'informations que le chercheur apporte à l'analyse en dehors des données elles-mêmes: avant de regarder les données, quelles valeurs de paramètres sont les plus probables?

Dans les âges sombres de l'analyse bayésienne, lorsque les Bayésiens se battaient avec des fréquentistes, on croyait que le chercheur voudrait introduire le moins d'informations possible dans l'analyse via l'a priori. Il y avait donc beaucoup de recherches et d'arguments consacrés à comprendre comment, précisément, un prieur pouvait être "non informatif" de cette manière. Aujourd'hui, Gelman s'oppose au choix automatique des prieurs non informatifs, déclarant dans Bayesian Data Analysisque la description "non informative" reflète son attitude envers le prieur, plutôt que toute caractéristique mathématique "spéciale" du prieur. (De plus, il y avait une question dans la première littérature sur à quelle échelle un prieur n'est pas informatif. Je ne pense pas que cela soit particulièrement important pour votre question, mais pour un bon exemple de cet argument d'un point de vue fréquentiste, voir le début de Gary King, Unifying Political Methodology. )

Un a priori «plat» indique un a priori uniforme où toutes les valeurs de la plage sont également probables. Encore une fois, il y a des arguments à avoir pour savoir si ceux-ci sont vraiment non informatifs, car spécifier que toutes les valeurs sont également probables est, d'une certaine manière, une information et peut être sensible à la façon dont le modèle est paramétré. Les prieurs plats ont une longue histoire dans l'analyse bayésienne, remontant à Bayes et Laplace.

Un a priori "vague" est très diffus mais pas nécessairement plat, et il exprime qu'une large gamme de valeurs est plausible, plutôt que de concentrer la masse de probabilité autour d'une gamme spécifique. Il s'agit essentiellement d'un a priori avec une variance élevée (quelle que soit la variance "élevée" dans votre contexte).

Les prieurs conjugués ont la caractéristique pratique de produire une expression de forme fermée lorsqu'ils sont multipliés par la probabilité appropriée. Un exemple de ceci est l'a priori bêta avec la vraisemblance binomiale, ou l'a priori gamma avec la vraisemblance du poisson. Il en existe des tableaux utiles sur Internet et Wikipédia. La famille exponentielle est extrêmement pratique à cet égard.

Les antérieurs conjugués sont souvent le choix «par défaut» pour certains problèmes en raison de leurs propriétés pratiques, mais cela ne signifie pas nécessairement qu'ils sont les «meilleurs», à moins que les connaissances antérieures ne puissent être exprimées via l'a priori conjugué. Les progrès du calcul signifient que la conjugaison n'est pas aussi prisée qu'elle l'était autrefois (cf. échantillonnage de Gibbs vs NUTS), de sorte que nous pouvons plus facilement effectuer l'inférence avec des a priori non conjugués sans trop de problèmes.

N(μ,σ2)μσ2μσ2


1
De plus, il n'est parfois pas clair ce que sont les «données» et ce que sont les «informations préalables», regardez ma réponse à stats.stackexchange.com/questions/112451/… pour un exemple.
kjetil b halvorsen
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.