Lissage de Laplace et Dirichlet prior


11

Sur l' article wikipedia du lissage de Laplace (ou lissage additif), il est dit que d'un point de vue bayésien,

cela correspond à la valeur attendue de la distribution postérieure, en utilisant une distribution de Dirichlet symétrique avec le paramètre comme priorité.α

Je suis perplexe quant à la réalité de cela. Quelqu'un pourrait-il m'aider à comprendre comment ces deux choses sont équivalentes?

Merci!

Réponses:


10

Sûr. Il s'agit essentiellement de l'observation que la distribution de Dirichlet est un conjugué préalable à la distribution multinomiale. Cela signifie qu'ils ont la même forme fonctionnelle. L'article le mentionne, mais je soulignerai simplement que cela découle du modèle d'échantillonnage multinomial. Donc, pour y aller ...

L'observation concerne le postérieur, introduisons donc quelques données, , qui sont des comptes de éléments distincts. Nous observons échantillons au total. Nous supposerons que est tiré d'une distribution inconnue (sur laquelle nous mettrons un avant sur le -simplex).xKN=i=1KxixπDir(α)K

La probabilité postérieure de étant donnée et les données sontπαx

p(π|x,α)=p(x|π)p(π|α)

La vraisemblance, , est la distribution multinomiale. Maintenant, écrivons les pdf:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

et

p(π|α)=1B(α)i=1Kπiα1

où . En multipliant, nous constatons que,B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

En d'autres termes, le postérieur est également Dirichlet. La question portait sur la moyenne postérieure. Puisque le postérieur est Dirichlet, nous pouvons appliquer la formule de la moyenne d'un Dirichlet pour constater que,

E[πi|α,x]=xi+αN+Kα.

J'espère que cela t'aides!


p(π|α,x)=p(x|π)p(π|α)/p(x|α), n'est-il donc pas faux de dire queIls sont proportionnels par rapport à , mais écrire une égalité n'est pas vrai je pense. p(π|α,x)=p(x|π)p(π|α)?π
michal

J'étais confus à ce sujet depuis longtemps, et je veux partager ma réalisation. Ces gens qui motivent le lissage de Laplace par Dirichlet utilisent la moyenne postérieure, pas la MAP. Pour simplifier, supposons la distribution bêta (cas le plus simple de Dirichlet) La moyenne postérieure est alors que la MAP est . Donc, si quelqu'un dit que correspond à ajouter 1 au numérateur et 2 au dénominateur, c'est parce qu'ils utilisent la moyenne postérieure. α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy

0

En guise de remarque, je voudrais également ajouter un autre point à la dérivation ci-dessus, qui ne concerne pas vraiment la question principale. Cependant, en parlant des a priori de Dirichlet sur la distribution multinomiale, j'ai pensé qu'il valait la peine de mentionner que ce serait la forme de la fonction de vraisemblance si nous prenions les probabilités comme variables de nuisance.

Comme il est correctement souligné par sydeulissie, le est proportionnel à . Maintenant, ici, je voudrais calculer .p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

En utilisant une identité intégrale pour les fonctions gamma, nous avons:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

La dérivation ci-dessus de la probabilité de données catégoriques propose une manière plus robuste de traiter ces données pour les cas où la taille de l'échantillon n'est pas assez grande.N

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.