Je recommanderais d'utiliser une "distribution bêta du deuxième type" (Beta 2 pour faire court) pour une distribution légèrement informative , et d'utiliser la distribution gamma inverse conjuguée si vous avez de fortes croyances antérieures. La raison pour laquelle je dis cela est que le prieur conjugué n'est pas robuste en ce sens que, si le prieur et les données sont en conflit, le prieur a une influence illimitée sur la distribution postérieure. Un tel comportement est ce que j'appellerais "dogmatique" et ne se justifie pas par de légères informations préalables.
La propriété qui détermine la robustesse est le comportement de queue de l'a priori et de la vraisemblance. Un très bon article décrivant les détails techniques est ici . Par exemple, une vraisemblance peut être choisie (disons une distribution t) de telle sorte qu'une observation (c'est-à-dire qu'elle devient arbitrairement grande) soit écartée de l'analyse d'un paramètre d'emplacement (de la même manière que vous le feriez intuitivement faire avec une telle observation). Le taux de «rejet» dépend de la lourdeur des queues de la distribution.yi→∞
Quelques diapositives qui montrent une application dans le contexte de la modélisation hiérarchique peuvent être trouvées ici (montre la forme mathématique de la distribution Beta 2 ), avec un article ici .
Si vous n'êtes pas dans le contexte de la modélisation hiérarchique, alors je suggérerais de comparer le postérieur (ou les résultats que vous créez) mais utilisez le Jeffreys avant pour un paramètre d'échelle, qui est donné par . Cela peut être créé comme limite de ladensitéBêta2car ses deux paramètres convergent vers zéro. Pour une approximation, vous pouvez utiliser de petites valeurs. Mais j'essaierais de trouver la solutionanalytiquementsi possible (et si ce n'est pas une solution analytique complète, faites progresser la solution analytique aussi loin que vous le pouvez), car vous vous épargnerez non seulement du temps de calcul, mais vous êtes également susceptible demieux comprendrece qui se passe dans votre modèle.p(σ)∝1σ
MVIQRM,V,IQRm(σ)=1σ
MaxEnt est la version "Rolls Royce", tandis que la Beta 2 est plutôt une version "berline". La raison en est que la distribution MaxEnt "assume le moins" sous réserve des contraintes que vous y avez mises (par exemple, aucune contrainte signifie que vous obtenez juste le Jeffreys avant), tandis que la distribution Beta 2 peut contenir des fonctionnalités "cachées" qui peut ou peut ne pas être souhaitable dans votre cas spécifique (par exemple, si les informations antérieures sont plus fiables que les données, alors la Bêta 2 est mauvaise).
L'autre belle propriété de la distribution MaxEnt est que s'il n'y a pas de contraintes non spécifiées fonctionnant dans le mécanisme de génération de données, alors la distribution MaxEnt est de manière écrasante la distribution la plus probable que vous verrez (nous parlons de plusieurs milliards et trillions à un). Par conséquent, si la distribution que vous voyez n'est pas celle de MaxEnt, il y a probablement des contraintes supplémentaires que vous n'avez pas spécifiées opérant sur le vrai processus, et les valeurs observées peuvent fournir un indice sur ce que pourrait être cette contrainte.