Quelle est la différence entre l'estimation de vraisemblance maximale et la descente de gradient?


16

Quels sont les avantages et les inconvénients des deux méthodes?


1
Je ne cherche pas juste la définition de ces deux méthodes que j'ai déjà de la recherche Google. J'essaie de comprendre quelle méthode est préférée dans quel cas. Par exemple: pour Bigdata, l'un fonctionnera mieux que les autres, etc. Je n'ai trouvé aucun bon document qui parle des aspects pratiques, etc.
GeorgeOfTheRF

8
Comment est un corbeau comme un bureau?
whuber

4
@ML_Pro GD n'a aucun rapport avec la modélisation statistique, c'est un algorithme. Vous pourriez probablement commencer par un manuel d'introduction aux statistiques pour mieux comprendre l'inférence statistique avant de vous familiariser avec les outils (comme GD) pour résoudre les problèmes statistiques.
Tim

1
Vouliez-vous demander la différence entre la descente de gradient et la maximisation des attentes (qui est généralement utilisée pour résoudre le problème d'optimisation dans le MLE)?
Sobi

Réponses:


32

L'estimation du maximum de vraisemblance est une approche générale d'estimation des paramètres dans les modèles statistiques en maximisant lafonction de vraisemblance définie comme

L(θ|X)=f(X|θ)

Xθθμθθ

La descente de gradient est un algorithme d'optimisation . Vous pouvez utiliser cet algorithme pour trouver le minimum (ou le maximum, puis il est appelé ascension en gradient ) de nombreuses fonctions différentes. L'algorithme ne se soucie pas vraiment de la fonction qu'il minimise, il fait juste ce qu'on lui a demandé. Donc, en utilisant l'algorithme d'optimisation, vous devez savoir d'une manière ou d'une autre comment savoir si une valeur du paramètre d'intérêt est "meilleure" que l'autre. Vous devez fournir à votre algorithme une fonction pour minimiser et l'algorithme s'occupera de trouver son minimum.

Vous pouvez obtenir des estimations du maximum de vraisemblance en utilisant différentes méthodes et en utilisant un algorithme d'optimisation en fait partie. D'autre part, la descente de gradient peut également être utilisée pour maximiser les fonctions autres que la fonction de vraisemblance.


5
@ML_Pro J'ai fourni deux liens où vous pouvez trouver des informations détaillées, je ne pense pas qu'il soit nécessaire de dupliquer ces réponses.
Tim

8
@ML_Pro comme je l'ai écrit dans ma réponse, ce sont des choses différentes et vous ne pouvez pas les comparer ...
Tim

7
Oui, mais MLE est une approche générale et GD n'est qu'un algorithme que vous pouvez utiliser pour minimiser un certain nombre de fonctions différentes. C'est comme si vous compariez l'algèbre à la calculatrice de poche ...
Tim

4
MLE spécifie la fonction objectif (la fonction de vraisemblance); GD trouve la solution optimale à un problème une fois la fonction objectif spécifiée. Vous pouvez utiliser GD (ou d'autres algorithmes d'optimisation) pour résoudre un problème de maximum de vraisemblance, et le résultat sera l'estimateur de maximum de vraisemblance.
jbowman

1
@ML_Pro, cela est décrit dans les liens que j'ai fournis dans ma réponse. En bref: oui c'est un produit de pdf. Produit parce que nous supposons que les données sont iid. Il est défini en termes de pdf parce que nous parlons de modèle de probabilité.
Tim

-3

f=l(θ)
dfdθ=0

θ
f

Mais la probabilité de régression logistique ne fonctionne pas de cette manière sous une forme fermée . Nous devons donc utiliser une autre méthode, comme gradient descent.


@Tim, vous pouvez voir quelque chose d'ici, courses.cs.washington.edu/courses/cse446/13sp/slides/…
Belter

"Les coefficients de régression sont généralement estimés à l'aide d'une estimation de vraisemblance maximale" ( en.wikipedia.org/wiki/Logistic_regression )
Tim

L'estimation du maximum de vraisemblance est une sorte de méthode d'estimation des coefficients de régression, mais nous avons plusieurs façons de trouver la solution de MLE. Donc, utiliser likelihood function+ gradient descent(pour obtenir la solution de la fonction de vraisemblance) est toujours un moyen de faire MLE.
Belter

Vous pouvez également voir cette phrase Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.de Machine Learning: a Probabilistic Perspective, Kevin Murphy.
Belter

... alors le libellé de votre réponse est déroutant car il semble que vous disiez que pour la régression logistique, nous n'utilisons pas ML et que nous utilisons plutôt GD.
Tim
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.