Le livre de Kevin Murphy aborde un problème bayésien hiérarchique classique (initialement abordé dans Johnson and Albert, 1999, p24
):
Supposons que nous essayons d'estimer le taux de cancer dans villes. Dans chaque ville, nous échantillonnons un certain nombre de personnes et mesurons le nombre de personnes atteintes de cancer , où est le véritable taux de cancer dans la ville.
Nous aimerions estimer les tout en permettant aux villes pauvres en données d'emprunter des forces statistiques aux villes riches en données.
Pour ce faire, il modélise afin que toutes les villes partagent le même avant, de sorte que les modèles finaux se présentent comme suit:
où .
La partie cruciale de ce modèle est bien sûr (je cite) "que nous déduisons des données, car si nous le simplement à une constante, le sera conditionnellement indépendant, et là il n'y aura aucun flux d'informations entre eux ".
J'essaie de modéliser cela dans PyMC , mais pour autant que je comprends, j'ai besoin d'un a priori pour et (je crois que c'est ci-dessus). Quel serait un bon avant pour ce modèle?
Au cas où cela aiderait, le code, tel que je l'ai maintenant, est:
bins = dict()
ps = dict()
for i in range(N_cities):
ps[i] = pm.Beta("p_{}".format(i), alpha=a, beta=b)
bins[i] = pm.Binomial('bin_{}'.format(i), p=ps[i],n=N_trials[i], value=N_yes[i], observed=True)
mcmc = pm.MCMC([bins, ps])
où je crois que j'ai besoin d'un préalable pour a
et b
. Comment en choisir un?