Laquelle est la meilleure probabilité maximale ou la probabilité marginale et pourquoi?


13

Lors de la régression, si nous nous appuyons sur la définition de: Quelle est la différence entre une vraisemblance partielle, une vraisemblance de profil et une vraisemblance marginale?

cela, Maximum de vraisemblance
Trouvez β et θ qui maximise L (données β, θ |).

Tandis que, vraisemblance marginale
Nous intégrons θ de l'équation de vraisemblance en exploitant le fait que nous pouvons identifier la distribution de probabilité de θ conditionnelle à β.

Quelle est la meilleure méthodologie pour maximiser et pourquoi?

Réponses:


14

Chacun d'eux donnera des résultats différents avec une interprétation différente. Le premier trouve le couple , θ qui est le plus probable, tandis que le second trouve le β qui est (marginalement) le plus probable. Imaginez que votre distribution ressemble à ceci:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Alors la réponse de vraisemblance maximale est ( θ = 3 ), tandis que la réponse de vraisemblance marginale maximale est β = 2 (puisque, en marginalisant sur θ , P ( β = 2 ) = 0,6β=1θ=3β=2θP(β=2)=0.6 ).

Je dirais qu'en général, la probabilité marginale est souvent ce que vous voulez - si vous ne vous souciez vraiment pas des valeurs des paramètres , alors vous devez simplement les réduire. Mais probablement dans la pratique, ces méthodes ne donneront pas de résultats très différents - si elles le font, cela peut indiquer une certaine instabilité sous-jacente dans votre solution, par exemple plusieurs modes avec différentes combinaisons de β , θ qui donnent toutes des prédictions similaires.θβθ


J'ai trouvé des résultats différents pour les méthodes de vraisemblance maximale / marginale et donc la question. Je dirais que les deux résultats dans mon cas donnent des interprétations différentes mais des résultats possibles.
Ankit Chiplunkar

5

Je suis moi-même aux prises avec cette question en ce moment. Voici un résultat qui peut être utile. Considérons le modèle linéaire

y=Xβ+ϵ,ϵN(0,σ2)

et β et σ 2 sont les paramètres d'intérêt. La probabilité conjointe estyRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Optimiser les rendements de vraisemblance conjointe

β^=X+y

σ^2=1n||r||2

est la pseudo -inverse de X et r = y - X β est le vecteur en forme résiduelle. Notez que dans σ 2 nous avons 1 / n au lieu des degrés de liberté familiers corrigée rapport 1 / ( n - p )X+Xr=yXβ^σ^21/n1/(np) . Cet estimateur est connu pour être biaisé dans le cas de l'échantillon fini.

Now suppose instead of optimizing over both β and σ2, we integrate β out and estimate σ2 from the resulting integrated likelihood:

σ^2=maxσ2RpL(β,σ2)dβ

Using elementary linear algebra and the Gaussian integral formula, you can show that

σ^2=1np||r||2

This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.

D'après ce résultat, on pourrait se demander s'il y a quelque chose de fondamentalement avantageux dans la probabilité intégrée, mais je ne connais aucun résultat général qui réponde à cette question. Le consensus semble être que le BC intégré est plus efficace pour rendre compte de l'incertitude dans la plupart des problèmes d'estimation. En particulier, si vous estimez une quantité qui dépend d'autres estimations de paramètres (même implicitement), l'intégration sur les autres paramètres rendra mieux compte de leurs incertitudes.


1
C'est intéressant. Je suis cependant un peu troublé par le fait que "l'intégrationβ" uses an invalid marginal distribution, as well as by the absence of any apparent justification for using this (improper) marginal compared to any other. What thoughts do you have about these issues?
whuber

1
@whuber I share your concerns and don't have a ready answer, but note that the likelihood being marginalized is just a posterior with a uniform improper prior on β, so I think this is related to the "objective Bayesian" approach. There one does not care when a parameter like β has an improper prior distribution, so long as the posterior is integrable.
Paul

Actually, based on this post and comments therein, I think integrated ML, not marginal ML, is the right term for what we're doing here. Edited accordingly.
Paul

1
+1 I know i'm pretty late to this party but isn't integrating out fixed effects by putting an improper uniform prior on them exactly what REML does, so you've actually just obtained the REML estimate and this df correction is exactly the reason here that REML is better for smaller samples?
jld

@Chaconne yes, this post was motivated by trying to understand REML! I have (almost) no formal statistics education, so deriving this was all new to me.
Paul

4

This is usually not a matter of choice. If we are interested in the estimation of β (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ. You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi). Now that θ has disappeared, using training samples as data, you can optimize the marginal likelihood w.r.t. β.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.