Premièrement , l'intégrale de "vraisemblance x antérieure" n'est pas nécessairement 1 .
Il n'est pas vrai que si:
et 0 ≤ P ( données | modèle ) ≤ 10≤P(model)≤10≤P(data|model)≤1
alors l'intégrale de ce produit par rapport au modèle (aux paramètres du modèle, en effet) est 1.
Manifestation. Imaginez deux densités discrètes:
P(model)=[0.5,0.5] (this is called "prior")P(data | model)=[0.80,0.2] (this is called "likelihood")
Si vous les multipliez tous les deux, vous obtenez:
qui n'est pas une densité valide car elle ne s'intègre pas à une:
0,40 + 0,25 = 0,65
[0.40,0.25]
0.40+0.25=0.65
Alors, que devons-nous faire pour forcer l'intégrale à être 1? Utilisez le facteur de normalisation, qui est:
∑model_paramsP(model)P(data | model)=∑model_paramsP(model, data)=P(data)=0.65
(désolé pour la mauvaise notation. J'ai écrit trois expressions différentes pour la même chose car vous pourriez les voir toutes dans la littérature)
Deuxièmement , la «vraisemblance» peut être n'importe quoi, et même s'il s'agit d'une densité, elle peut avoir des valeurs supérieures à 1 .
Comme l'a dit @whuber, ces facteurs n'ont pas besoin d'être compris entre 0 et 1. Ils ont besoin que leur intégrale (ou somme) soit 1.
Troisièmement [extra], les "conjugués" sont vos amis pour vous aider à trouver la constante de normalisation .
Vous verrez souvent:
car le dénominateur manquant peut être facilement obtenu en intégrant ce produit. Notez que cette intégration aura un résultat bien connu si le précédent et la vraisemblance sont conjugués .
P(model|data)∝P(data|model)P(model)
0 <= P(model) <= 1
ni0 <= P(data/model) <= 1
parce que l'une (ou même les deux!) De celles-ci pourraient dépasser (et même être infinies). Voir stats.stackexchange.com/questions/4220 .