Veuillez m'expliquer la différence entre l'estimation bayésienne et l'estimation du maximum de vraisemblance?
Veuillez m'expliquer la différence entre l'estimation bayésienne et l'estimation du maximum de vraisemblance?
Réponses:
C'est une question très large et ma réponse ici ne fait que commencer à gratter un peu la surface. J'utiliserai la règle de Bayes pour expliquer les concepts.
Supposons qu'un ensemble de paramètres de distribution de probabilité, , explique le mieux l'ensemble de données D . Nous pouvons souhaiter estimer les paramètres θ à l'aide de la règle de Bayes:
Les explications suivent:
Estimation de vraisemblance maximale
Avec MLE, nous recherchons une valeur en points pour qui maximise la probabilité, p ( D | θ ) , illustrée dans la ou les équations ci-dessus. On peut désigner cette valeur comme θ . En MLE, θ est une estimation ponctuelle, pas une variable aléatoire.
En d’autres termes, dans l’équation ci-dessus, MLE traite le terme est une constante et ne nous permet PAS d’injecter nos croyances antérieures,p(θ), sur les valeurs probables deθdans les calculs d’estimation.
Estimation bayésienne
L'estimation bayésienne, en revanche, calcule complètement (ou parfois approximativement) la distribution postérieure . L'inférence bayésienne considère θ comme une variable aléatoire. Dans l'estimation bayésienne, nous introduisons des fonctions de densité de probabilité et obtenons des fonctions de densité de probabilité, plutôt qu'un seul point comme dans MLE.
Cela conduit au concept de «prieur conjugué» dans l'estimation bayésienne. Pour une fonction de vraisemblance donnée, si nous avons le choix quant à la façon dont nous exprimons nos croyances antérieures, nous devons utiliser la forme qui nous permet de réaliser l'intégration présentée ci-dessus. L'idée des a priori conjugués et de la manière dont ils sont mis en œuvre dans la pratique est très bien expliquée dans ce billet de COOlSerdash.
Je pense que vous parlez d'estimation ponctuelle comme dans l'inférence paramétrique, de sorte que nous puissions supposer un modèle de probabilité paramétrique pour un mécanisme de génération de données, mais la valeur réelle du paramètre est inconnue.
L'estimation de vraisemblance maximale consiste à utiliser un modèle de probabilité pour les données et à optimiser la fonction de vraisemblance conjointe des données observées sur un ou plusieurs paramètres. On voit donc que les paramètres estimés sont les plus cohérents avec les données observées par rapport à tout autre paramètre de l'espace des paramètres. Notez que ces fonctions de vraisemblance ne sont pas nécessairement considérées comme étant "conditionnelles" aux paramètres, car les paramètres ne sont pas des variables aléatoires. Il est donc un peu plus sophistiqué de concevoir la probabilité de résultats différents comparant deux paramétrisations différentes. Il s’avère qu’il s’agit d’une approche philosophiquement saine.
L'estimation bayésienne est un peu plus générale car nous ne maximisons pas nécessairement l'analogue bayésien de la vraisemblance (la densité postérieure). Cependant, le type d'estimation analogue (ou estimation en mode postérieur) est considéré comme maximisant la probabilité que le paramètre postérieur soit conditionnel aux données. Habituellement, les estimations de Bayes obtenues de cette manière se comportent presque exactement comme celles de ML. La principale différence est que l'inférence de Bayes permet à une méthode explicite d'incorporer des informations antérieures.
Aussi 'L'histoire épique du maximum de vraisemblance permet une lecture éclairante
L'estimation bayésienne est l'inférence bayésienne alors que la MLE est un type de méthode d'inférence fréquentiste.
L'alternative de MLE en inférence bayésienne est appelée estimation maximale a posteriori (MAP en abrégé). En réalité, MLE est un cas particulier de MAP où le prieur est uniforme, comme nous le voyons ci-dessus et comme indiqué dans Wikipedia :
Du point de vue de l'inférence bayésienne, la MLE est un cas particulier d'estimation maximale a posteriori (MAP) qui suppose une distribution antérieure uniforme des paramètres.
Pour plus de détails, veuillez vous référer à cet article génial: MLE vs MAP: le lien entre le maximum de vraisemblance et l'estimation maximum a posteriori .
Et une différence supplémentaire est que le maximum de probabilité est sujet à une surévaluation, mais si vous adoptez l'approche bayésienne, le problème de suréquipement peut être évité.