Qu'est-ce qu'un "préalable non informatif"? Peut-on en avoir un avec vraiment aucune information?


73

Inspiré par un commentaire de cette question :

Que considérons-nous comme "non informatif" dans un précédent - et quelles informations sont encore contenues dans un précédent prétendument non informatif?

Je vois généralement le prieur dans une analyse où il s’agit d’une analyse de type fréquentiste qui tente d’emprunter de belles parties de l’analyse bayésienne distribution uniforme à travers les limites de la mesure de l'effet, centrée sur 0. Mais même si cela revendique une forme antérieure, elle se trouve simplement plate.

Y a-t-il un meilleur informatif avant l'utilisation?


2
Peut-être apprécierez-vous le soi-disant principe d'entropie maximale . Je n'ai pas envie d'élargir cela dans une réponse complète - l'article de Wikipedia semble de bonne qualité. Je suis assez confiant que certains contributeurs développeront cela beaucoup mieux que moi.
Elvis

Réponses:


93

[Attention: en tant que membre titulaire de la section Objective Bayes de l'ISBA , mes opinions ne sont pas représentatives de tous les statisticiens bayésiens !, bien au contraire ...]

En résumé, il n’existe pas de prieur avec "vraiment aucune information".

En effet, le prieur "non informatif" est malheureusement un abus de langage. Toute distribution antérieure contient une spécification qui s'apparente à une certaine quantité d'informations. Même (ou surtout) l'uniforme antérieur. En effet, le prieur uniforme n’est plat que pour un paramétrage donné du problème. Si on passe à un autre paramétrage (même un borné), le changement de variable jacobien entre en image et en densité et le précédent n'est plus plat.

Comme le souligne Elvis, l’entropie maximale est l’une des méthodes préconisées pour sélectionner des a priori "non informatifs". Cependant, il faut (a) suffisamment d’ informations sur certains moments de la distribution antérieure pour spécifier les contraintes menant au maxEnt précédent et (b) le choix préliminaire d'une mesure de référence [en continu], un choix qui ramène le débat à son stade initial! (En outre, le paramétrage des contraintes (ie le choix deh(θ)π()

Θh(θ)dπ(θ)=h0
π(θ)exp{λTh(θ)}
dμ(θ)h) a un impact sur la forme du MaxEnt résultant précédent.)

José Bernardo a élaboré une théorie originale des priors de référence dans laquelle il choisit le prieur afin de maximiser les informations apportées par les données en maximisant la distance de Kullback entre le préexistant et le postérieur. Dans les cas les plus simples sans paramètres gênants, la solution est celle de Jeffreys. Dans les problèmes plus complexes, (a) un choix des paramètres d’intérêt (ou même un classement de leur ordre d’intérêt) doit être effectué; (b) le calcul du prior est assez compliqué et nécessite une séquence d'ensembles compacts incorporés pour éviter les problèmes d'impropriété. (Voir par exemple The Bayesian Choice pour plus de détails.)

Fait intéressant, certains chercheurs extérieurs à la perspective bayésienne ont mis au point des procédures appelées distributions de confiance qui sont des distributions de probabilité sur l’espace des paramètres, construites par inversion à partir de procédures basées sur la fréquence sans structure préalable explicite ni même une mesure dominante sur cet espace de paramètres. Ils avancent que cette absence de priorité bien définie est un avantage, bien que le résultat dépende définitivement du choix de la procédure d'initialisation basée sur la fréquence

En bref, il n’existe pas de "meilleur" choix (ou même de "meilleur") pour "le" précédent "non informatif". Et j'estime que cela devrait être ainsi, car la nature même de l'analyse bayésienne implique que le choix de la distribution antérieure importe. Et qu'il n'y a pas de comparaison de prieur: on ne peut pas être "meilleur" qu'un autre. (Au moins avant d'observer les données: une fois que cela est observé, la comparaison des a priori devient un choix de modèle.) La conclusion de José Bernardo, de Jim Berger, de Dongchu Sun et de nombreux autres bayésiens "objectifs" est qu'il existe des a priori de référence à peu près équivalents. utiliser en cas de doute sur ses informations antérieures ou pour rechercher une inférence bayésienne de référence, certains de ces précédents étant en partie pris en charge par des arguments de la théorie de l'information,


14
(+1) Votre livre? Oh putain. J'ai donc 387 questions pour vous :)
Elvis le

4
(+1) Pour un objectif (pas moins!), Réponse directe.
cardinal

2
+1 Merci pour un bon aperçu des problèmes.
whuber

2
Une réponse remarquable. Je vous remercie. Et encore un autre livre pour aller sur la liste de souhaits.
Fomite

1
C'est presque injuste. Après tout, c'est Christian Robert! Je rigole. Très bonne réponse. Et j'aimerais beaucoup si @ Xi'an pourrait l'étendre dans un article de son blog, en particulier sur l'importance du paramétrage dans le thème des a priori "non informatifs".
Manoel Galdino

16

Une propriété attrayante des priors non informels formels est la "propriété d'appariement fréquentiste": elle signifie qu'un intervalle de crédibilité postérieur de 95% est également (au moins approximativement) un intervalle de confiance au sens fréquentiste. Cette propriété est valable pour la référence antérieure de Bernardo bien que les fondations de ces prieurs non informatifs ne soient pas orientées vers la réalisation d’une bonne propriété d’appariement fréquentiste. la distribution avec une énorme variance alors il n'y a aucune garantie que la propriété d'appariement fréquentiste est valide. Peut-être que le précédent de référence de Bernardo ne pouvait pas être considéré comme le "meilleur" choix d'un précédent non informatif, mais pourrait être considéré comme le plus réussi.


9

Les distributions de Jeffreys souffrent aussi d’incohérences: les a priori de Jeffreys pour une variable plus ou plus sont incorrects, ce qui n’est pas le cas pour l’antérieur de Jeffreys d’un paramètre de probabilité : la mesure a une masse de sur .(,)(0,)pdp/p(1p)π(0,1)

Renyi a montré qu'une distribution non informative doit être associée à une intégrale inappropriée. Voir à la place les distributions de Lhoste qui évitent cette difficulté et sont invariantes aux changements de variables (par exemple, pour , la mesure est ).pdp/p(1p)


Tout d'abord, la traduction est bonne!

Pour E. LHOSTE: "Le calcul des probabilités appliquées à l'artillerie", Revue d'artillerie, tome 91, mai à août 1923

Pour A. RENYI: "Sur une nouvelle théorie axiomatique de la probabilité" Acta Mathematica, Académie des Sciences hongroises, tome VI, fasc.3-4, 1955

Je peux ajouter: M. DUMAS: "Lois de probabilité a priori de Lhoste", Sciences et techniques de l'armement, 56, 4ème fascicule, 1982, pp 687-715.


3
Est-il possible pour vous de réécrire cela en anglais, même si cela se fait assez mal via un service de traduction automatique tel que Google Translate? Les autres utilisateurs, qui maîtrisent mieux le français et l'anglais, peuvent vous aider à le copier-éditer à votre place.
Silverfish

3
Autant que je me souvienne, le résultat d'invariance de Lhoste est limité aux transformations et pour les paramètres sur et , respectivement. Les autres transformations de et en donneront lieu à différents priors. logσlogp/(1p)(0,)(0,1)(0,)(0,1)R
Xi'an

2
De ma brève correspondance avec Maurice Dumas au début des années 90, je me souviens qu’il avait écrit une note aux comptes rendus de l’Académie des sciences, où il utilisait les transformations et pour dériver " invariants "priors. log()logit()
Xi'an

3

Je souscris à l'excellente réponse de Xi'an , soulignant qu'il n'y a pas de simple précédent qui soit "non informatif" au sens où il ne porte aucune information. Pour approfondir ce sujet, je voulais souligner que l’une des solutions possibles est d’entreprendre une analyse bayésienne dans le cadre improbable des probabilités (voir notamment Walley 1991 , Walley 2000 ). Dans ce cadre, la croyance antérieure est représentée par un ensemble de distributions de probabilitéet ceci conduit à un ensemble correspondant de distributions postérieures. Cela pourrait sembler ne pas être très utile, mais c'est en fait assez étonnant. Même avec un ensemble très large de distributions antérieures (où certains moments peuvent aller sur toutes les valeurs possibles), vous obtenez toujours une convergence postérieure vers un seul postérieur, tel que .n

Ce cadre analytique a été axiomatisé par Walley comme sa propre forme spéciale d’analyse probabiliste, mais est essentiellement équivalent à une analyse bayésienne robuste utilisant un ensemble de priors, produisant un ensemble correspondant de postérieurs. Dans de nombreux modèles, il est possible de définir un ensemble de "a priori" "non informatif" qui permet à certains moments (par exemple, la moyenne antérieure) de varier sur toute la plage de valeurs possible, tout en produisant de précieux résultats postérieurs, où les moments postérieurs sont liés. plus étroitement. On peut soutenir que cette forme d’analyse peut être qualifiée de "non informative", du moins en ce qui concerne les moments susceptibles de varier sur toute la plage autorisée.


Un exemple simple - modèle de Bernoulli: supposons que nous observions les données où est le paramètre inconnu inconnu. Habituellement, nous utilisions une densité bêta en tant qu'antérieur (à la fois les antécédents de Jeffrey et de référence sont de cette forme). Nous pouvons spécifier cette forme de densité antérieure en fonction de la moyenne antérieure et d'un autre paramètre comme :X1,...,Xn|θIID Bern(θ)θμκ>1

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(Ce formulaire donne les moments précédents et .) Maintenant, dans un modèle imprécis, nous pourrions définissez la valeur before pour qu'elle comprenne l' ensemble de toutes ces distributions antérieures sur toutes les valeurs attendues possibles , mais avec l'autre paramètre fixé pour contrôler la précision sur la plage des valeurs moyennes. Par exemple, nous pourrions utiliser le jeu de priors:E(θ)=μV(θ)=μ(1μ)/κ

P0{Beta(μ,κ)|0μ1}.

Supposons que nous observions indicateurs positifs dans les données. Ensuite, en utilisant la règle de mise à jour pour le modèle Bernoulli-beta, l'ensemble postérieur correspondant est:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

La plage de valeurs possibles pour l'attente postérieure est la suivante:

sn+κ1E(θ|x)s+κ1n+κ1.

Ce qui est important ici, c’est que, même si nous avons commencé avec un modèle qui était «non informatif» par rapport à la valeur attendue du paramètre (l’attente antérieure allait de toutes les valeurs possibles), nous aboutissons néanmoins à des inférences postérieures informatives en ce qui concerne à l’attente postérieure du paramètre (elles s’étendent maintenant sur un ensemble de valeurs plus étroit). Comme cette plage de valeurs est réduite à un seul point, qui est la valeur vraie de .nθ


+1 Intéressant. Qu'est-ce que kappa dans la dernière équation? Cela devrait-il être une star kappa?
Amibe dit de réintégrer Monica

J'ai édité pour supprimer la variation dans pour donner un modèle plus simple. Ça devrait aller maintenant. κ
Réintégrer Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.