Je pense qu'il est plus correct de parler de la distribution postérieure de votre paramètre plutôt que de son estimation postérieure. Pour la clarté des notations, je laisserai tomber le premier dans dans ce qui suit.σ′2σ′2
Supposons que soit distribué comme , - je laisse tomber pour l'instant pour faire un exemple heuristique - et est distribué comme et est indépendant de .XN(0,σ2)μ1/σ2=σ−2Γ(α,β)X
Le pdf de donné est gaussien, ieXσ−2
f(x|σ−2)=12πσ2−−−−√exp(−x22σ2).
Le pdf commun de , est obtenu en multipliant par - le pdf de . Cela sort comme(X,σ−2)f(x,σ−2)f(x|σ−2)g(σ−2)σ−2
f(x,σ−2)=12πσ2−−−−√exp(−x22σ2)βαΓ(α)exp(−βσ2)1σ2(α−1).
Nous pouvons regrouper des termes similaires et les réécrire comme suit
f(x,σ−2)∝σ−2(α−1/2)exp(−σ−2(β+x2/2)).
La distribution postérieure de est par définition le pdf de étant donné , qui est par la formule de Bayes . Pour répondre à votre question 1. Je ne pense pas qu'il existe un moyen d'exprimer partir de sans utiliser la formule de Bayes. Avec le calcul, nous reconnaissons dans la formule ci-dessus quelque chose qui ressemble à une fonction , donc l'intégration de pour obtenir est assez facile.σ−2σ−2xf(x,σ−2)/f(x)f(σ−2|x)f(x,σ−2)Γσ−2f(x)
f(x)∝(β+x2/2)−(α+1/2),
donc en divisant on obtient
f(σ−2|x)∝(β+x2/2)(σ−2(β+x2/2))α−1/2exp(−σ−2(β+x2/2))∝(σ−2(β+x2/2))α−1/2exp(−σ−2(β+x2/2)).
Et ici, dans la dernière formule, nous reconnaissons une distribution avec des paramètres .Γ(α+1/2,β+x2/2)
Si vous avez un échantillon IID , en intégrant tous les , vous obtiendrez puis comme produit de la termes suivants:((x1,σ−21),...,(xn,σ−2n))σ−2if(x1,...,xn)f(σ−21,...,σ−2n|x1,...,xn)
f(σ−21,...,σ−2n|x1,...,xn)∝∏i=1n(σ−2i(β+x2i/2))α−1/2exp(−σ−2i(β+x2i/2)),
Qui est un produit des variables . Et nous sommes coincés ici à cause de la multiplicité des . En outre, la distribution de la moyenne de ces variables indépendantes n'est pas simple à calculer.Γσ−2iΓ
Cependant, si nous supposons que toutes les observations partagent la même valeur de (ce qui semble être votre cas) c'est -à- dire que la valeur de n'a été tirée qu'une seule fois à partir d'un et que tous les ont ensuite été dessinés avec cette valeur de , on obtientxiσ−2σ−2Γ(α,β)xiσ−2
f(x1,...,xn,σ−2)∝σ−2(α+n/2)exp(−σ−2(β+12∑i=1nx2i)),
à partir de laquelle nous dérivons la distribution postérieure de comme votre équation 1 en appliquant la formule de Bayes.σ−2
La distribution postérieure de est un qui dépend de et , de vos paramètres antérieurs, de la taille de l'échantillon et de la somme des carrés observée. La moyenne antérieure de est et la variance est , donc si et la valeur est très petite, l'a priori porte très peu d'informations sur car la variance devient énorme. Les valeurs étant petites, vous pouvez les supprimer des équations ci-dessus et vous vous retrouvez avec votre équation 3.σ−2Γαβnσ−2α/βα/β2α=βσ−2
Dans ce cas, la distribution postérieure devient indépendante de l'a priori. Cette formule dit que l'inverse de la variance a une distribution qui ne dépend que de la taille de l'échantillon et de la somme des carrés. Vous pouvez montrer que pour les variables gaussiennes de moyenne connue, , l'estimateur de la variance, a la même distribution, sauf qu'il est fonction de la taille de l'échantillon et de la valeur réelle du parter . Dans le cas bayésien, c'est la distribution du paramètre, dans le cas fréquentiste, c'est la distribution de l'estimateur.ΓS2σ2
Concernant votre question 2. vous pouvez bien sûr utiliser les valeurs obtenues lors d'une expérience précédente comme vos priors. Parce que nous avons établi un parallèle entre l'interprétation bayésienne et fréquentiste dans ce qui précède, nous pouvons élaborer et dire que c'est comme calculer une variance à partir d'un petit échantillon et collecter ensuite plus de points de données: vous mettriez à jour votre estimation de la variance plutôt que de jeter les premiers points de données.
En ce qui concerne votre question 3. J'aime l' introduction aux statistiques mathématiques de Hogg, McKean et Craig, qui donne généralement le détail de la façon de dériver ces équations.