Inférence bayésienne pour la distribution multinomiale avec connaissance préalable asymétrique?

Supposons que j'obtienne des échantillons d'une distribution binomiale. Une façon de modéliser mes connaissances antérieures est d'utiliser une distribution bêta avec les paramètres et . Si je comprends bien, cela équivaut à avoir vu des "têtes" fois dans essais . En tant que tel, un bon raccourci pour faire l'inférence bayésienne complète consiste à utiliser comme ma nouvelle moyenne pour la probabilité de "têtes" après avoir vu têtes dans essais . $\alpha$ $\beta$ $\alpha$ $\alpha + \beta$ $\frac{h+\alpha}{n+\alpha+\beta}$ $h$ $n$

Supposons maintenant que j'ai plus de deux états, donc je vais obtenir des échantillons d'une distribution multinomiale. Supposons que je veuille utiliser une distribution de Dirichlet avec le paramètre $\alpha$ comme priorité. Encore une fois, en tant que raccourci, je peux traiter cela comme une connaissance préalable de la probabilité de l'événement $i$ comme étant équivalente à $\frac{\alpha_i}{\sum \alpha_j}$ , et si je suis témoin de l'événement $i$ $h$ fois dans $n$ essais, ma postérieure pour $i$ devient $\frac{h + \alpha_i}{n + \sum \alpha_j}$ .

Maintenant, dans le cas binomial, il ressort que la connaissance préalable des "têtes" survenant $\alpha$ fois dans $\alpha + \beta$ essais équivaut à "queues" survenant $\beta$ temps sur $\alpha + \beta$ essais . Logiquement, je ne pense pas pouvoir mieux connaître la vraisemblance des «têtes» que celle des «queues». Cela devient cependant plus intéressant avec plus de deux résultats. Si je dis un dé à 6 faces, je peux imaginer ma connaissance préalable du côté "1" équivalente à 10 unités dans 50 essais et ma connaissance antérieure du côté "2" comme étant équivalente à 15 deux en 100 essais.

Donc, après toute cette introduction, ma question est de savoir comment je peux correctement modéliser ces connaissances antérieures asymétriques dans le cas multinomial? Il semble que si je ne fais pas attention, je peux facilement obtenir des résultats illogiques car la probabilité / vraisemblance totale ne résume pas à 1. Y a-t-il un moyen de continuer à utiliser le raccourci Dirichlet, ou dois-je tout sacrifier et utiliser certains autre distribution antérieure entièrement?

Veuillez pardonner toute confusion causée par des abus potentiels dans la notation ou la terminologie ci-dessus.

— Michael McGowan
source

If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.

Y a-t-il une raison particulière pour laquelle vous ne souhaitez pas unifier vos «tailles d'échantillon équivalentes» pour « » et « » (à savoir et ) en utilisant leur multiple le moins commun? Dans ce cas, et .

1

$1$

2

$2$

50

$50$

100

$100$

α_{1} = 20 / 100

$\alpha_1 = 20/100$

α_{2} = 15 / 100

$\alpha_2 = 15/100$

— Zhubarb

Il vous permet de représenter des prieurs asymétriques tout en garantissant

\sum_{i = 1}^{i = 6} α_{i} = 1

$\sum_{i=1}^{i=6}\alpha_i = 1$

— Zhubarb

Enfin, cet article de Kemp et al. est très pertinent et amusant à lire.

— Zhubarb

@Berkan Je n'ai pas encore lu le document (merci quand même!), Mais la raison pour laquelle je n'ai pas unifié les tailles d'échantillon est que 20/100 n'est pas la même chose que 10/50, et ce fait est très important pour le raison pour laquelle cette question a été posée.

— Michael McGowan

Parce que vous êtes plus confiant dans le premier en raison d'un équivalent plus élevé. taille de l'échantillon?

— Zhubarb

Vous avez très bien cadré votre question.

Je pense que ce que vous recherchez ici est un cas de modélisation hiérarchique. Et vous voudrez peut-être modéliser plusieurs couches de hiérarchie (pour le moment, vous ne parlez que de prieurs). Le fait d'avoir une autre couche d'hyper-priors pour les hyper-paramètres vous permet de modéliser les variabilités supplémentaires des hyper-paramètres (car vous êtes préoccupé par les problèmes de variabilité des hyper-paramètres). Cela rend également votre modélisation flexible et robuste (peut être plus lente).

Plus précisément dans votre cas, vous pouvez bénéficier d'avoir des priors pour les paramètres de distribution de Dirichlet (la bêta est un cas spécial). Cet article de Gelman explique comment imposer des a priori aux paramètres de la distribution de Dirichlet. Il cite également l'un de ses articles dans une revue de toxicologie.

— suncoolsu
source

Je peux être plus spécifique à la modélisation, mais je ne veux pas deviner ici. Si vous avez choisi de modifier votre question, j'ajouterai plus de détails.

— suncoolsu