Modèle de régression linéaire simple
yi=α+βxi+ε
peut être écrit en termes de modèle probabiliste derrière elle
μi=α+βxiyi∼N(μi,σ)
c'est-à-dire que la variable dépendante suit la distribution normale paramétrée par la moyenne , c'est-à-dire une fonction linéaire de paramétrisée par et par l'écart type . Si vous estimez ce modèle à l'aide des moindres carrés ordinaires , vous n'avez pas à vous préoccuper de la formulation probabiliste, car vous recherchez des valeurs optimales pour paramètres en minimisant les erreurs au carré des valeurs ajustées aux valeurs prédites. D'autre part, vous pouvez estimer ce modèle à l'aide de l' estimation du maximum de vraisemblance , où vous recherchez des valeurs optimales de paramètres en maximisant la fonction de vraisemblance.YμiXα,βσα,β
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
où est une fonction de densité de la distribution normale évaluée aux points , paramétrée par le moyen et l'écart type .Nyiα+βxiσ
Dans l'approche bayésienne au lieu de maximiser la fonction de vraisemblance uniquement, nous supposerions des distributions antérieures pour les paramètres et utiliserons le théorème de Bayes
posterior∝likelihood×prior
La fonction de vraisemblance est la même que ci-dessus, mais ce qui change est que vous supposez certaines distributions antérieures pour les paramètres estimés et que vous les incluez dans l'équation.α,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
"Quelles distributions?" est une question différente, car il y a un nombre illimité de choix. Pour paramètres , vous pouvez par exemple supposer des distributions normales paramétrées par certains hyperparamètres , ou -distribution si vous voulez assumer des queues plus lourdes, ou une distribution uniforme si vous ne voulez pas faire beaucoup d’hypothèses, mais vous voulez supposer que les paramètres peuvent être a priori "tout ce qui est compris dans la plage donnée", etc. Pour vous devez supposer une distribution antérieure dont la borne est supérieure à zéro, car l'écart type doit être positif. Cela peut conduire à la formulation du modèle, illustrée ci-dessous par John K. Kruschke.α,βtσ
(source: http://www.indiana.edu/~kruschke/BMLR/ )
Alors que vous cherchiez au maximum de probabilité que vous recherchiez une seule valeur optimale pour chacun des paramètres, en appliquant l'approche Bayesienne en appliquant le théorème de Bayes, vous obtenez la distribution a posteriori des paramètres. L'estimation finale dépendra des informations provenant de vos données et de vos a priori , mais plus vous y trouverez d'informations, moins les a priori ont d'influence .
Notez que lorsque vous utilisez des a priori uniformes, ils prennent la forme après la suppression des constantes de normalisation. Cela rend le théorème de Bayes uniquement proportionnel à la fonction de vraisemblance, de sorte que la distribution postérieure atteindra son maximum exactement au même point que l'estimation du maximum de vraisemblance. Ce qui suit, l’estimation sous les a priori uniformes sera la même que pour les moindres carrés ordinaires, car minimiser les erreurs au carré correspond à la maximisation de la vraisemblance normale .f(θ)∝1
Pour estimer un modèle en approche bayésienne, dans certains cas, vous pouvez utiliser des a priori conjugués . La distribution a posteriori est donc directement disponible (voir exemple ici ). Cependant, dans la grande majorité des cas, la distribution postérieure ne sera pas directement disponible et vous devrez utiliser les méthodes de Markov en chaîne de Monte Carlo pour estimer le modèle (consultez cet exemple d'utilisation de l'algorithme de Metropolis-Hastings pour estimer les paramètres de régression linéaire). Enfin, si vous n’êtes intéressé que par des estimations ponctuelles de paramètres, vous pouvez utiliser une estimation maximale a posteriori , à savoir:
argmaxα,β,σf(α,β,σ∣Y,X)
Pour une description plus détaillée de la régression logistique, vous pouvez vérifier le modèle logit bayésien - explication intuitive? fil.
Pour en savoir plus, vous pouvez consulter les livres suivants:
Kruschke, J. (2014). Analyse bayésienne de données: didacticiel avec R, JAGS et Stan. Presse académique.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004).
Analyse bayésienne des données. Chapman & Hall / CRC.