Estimation du maximum de vraisemblance (MLE) en termes simples


92

Quelqu'un pourrait-il m'expliquer de manière détaillée sur l'estimation du maximum de vraisemblance (MLE) en termes simples? J'aimerais connaître le concept sous-jacent avant de passer à la dérivation ou à l'équation mathématique.


9
Vous ne savez pas quel genre de réponse vous recherchez. Savez-vous quelle est la probabilité, par exemple? Sinon, mieux vaut le savoir en premier.
Glen_b

4
De plus, je pense que toute réponse qui n’impliquera pas les mathématiques à un certain niveau sera inadéquate.
gregmacfarlane

1
Essayez ce lien . Il a une explication assez nette sur MLE, MAP, EM. Je pense que cela couvre l'idée de base de MLE en termes simples.
Nimish Kulkarni

2
Je pense que cela fournit une explication très intuitive de MLE. Je dirais que si les concepts ne sont pas encore clairs, il serait idéal de rafraîchir certaines statistiques de base.
KartikKannapur

Réponses:


76

Disons que vous avez des données. Supposons que vous êtes prêt à supposer que les données proviennent d'une distribution - peut-être gaussienne. Les données auraient pu provenir d'un nombre infini de Gaussiens différents (ce qui correspond à la combinaison du nombre infini de moyennes et de variances qu'une distribution gaussienne peut avoir). MLE choisira la gaussienne (c'est-à-dire la moyenne et la variance) qui est "la plus compatible" avec vos données (la signification précise de compatible est expliquée ci-dessous).

Donc, disons que vous avez un ensemble de données de . La gaussienne la plus cohérente d'où proviennent ces données a une moyenne de 3 et une variance de 16. Elle aurait pu être échantillonnée à partir d'une autre gaussienne. Mais un avec une moyenne de 3 et une variance de 16 correspond le mieux aux données dans le sens suivant: la probabilité d'obtenir les valeurs particulières que vous avez observées est plus grande avec ce choix de moyenne et de variance qu'avec tout autre choix.y={1,3,7}yy

Passage à la régression: au lieu que la moyenne soit une constante, la moyenne est une fonction linéaire des données, comme spécifié par l’équation de régression. Donc, supposons que vous ayez des données comme avec d’avant. La moyenne de cette gaussienne est maintenant le modèle de régression ajusté , oùx={2,4,10}y la ß la Xβ^ß = [ - 1,9 , 0,9 ]β^=[1.9,.9]

Déplacement vers les GLM: remplacez Gaussian par une autre distribution (de la famille des exponentielles). La moyenne est maintenant une fonction linéaire des données, comme spécifié par l'équation de régression, transformée par la fonction de lien. Donc, c'est , où pour logit (avec des données binomiales).g(Xβ)g(x)=ex/(1+ex)


28
" MLE choisira le gaussien le plus probable, en fonction de vos données. " Hmmm, n'est-ce pas: MLE choisira le gaussien sous lequel vos données sont les plus probables? Ce qui est légèrement différent de choisir le "gaussien le plus probable" ... le choix du gaussien le plus probable ne nécessiterait-il pas un examen des croyances antérieures ?
Jake Westfall

9
@ACD Je ne pense pas que cela soit juste incomplet mais donne l'intuition correcte. Par exemple, je ne vois pas de problème à ne pas discuter de cas spéciaux tels que la fonction de vraisemblance a plus d'un maximum. Mais la différence entre la distribution la plus susceptible de produire les données observées et la distribution la plus probable compte tenu des données est la différence fondamentale entre l'inférence fréquentiste et bayésienne. Donc, si vous l'expliquez ainsi, vous ne faites que créer une pierre d'achoppement pour l'avenir.
Erik

6
Bien sûr, mais l'explication conceptuelle la plus correcte est-elle plus difficile à comprendre que celle que vous avez écrite? Je ne pense pas. Je pense que la majeure partie de votre réponse est correcte, mais je vous exhorte, pour des raisons de postérité, à modifier légèrement une partie du phrasé afin d'éviter de parler du "gaussien le plus probable" et de préciser que ce que nous souhaitons être "probable" (en termes familiers ) sous ML n'est pas l'hypothèse mais les données. Je pense que cela peut être une modification mineure mais importante de votre réponse par ailleurs agréable.
Jake Westfall

7
@ Max: Merci beaucoup d'avoir finalement résolu le problème! Je pense qu'il serait peut-être logique d'écrire explicitement ici pour les futurs lecteurs: la critique exprimée dans les commentaires susmentionnés d'Erik et de Jake, dont le vote a été augmenté, ne s'applique plus, une fois que la réponse a été modifiée.
amibe dit de réintégrer Monica

7
Juste pour intervenir: j'apprécie toute l'attention et les améliorations apportées à ma réponse. Toutes mes excuses pour avoir d'abord hésité sur les modifications (qui sont bonnes). J'étais réticent à l'idée de voir la simplicité de ma réponse s'éroder. Cela n'a en grande partie pas eu lieu.
generic_user

67

L'estimation du maximum de vraisemblance (MLE) est une technique permettant de trouver la fonction la plus probable expliquant les données observées. Je pense que les maths sont nécessaires, mais ne vous laissez pas effrayer!

x,yβσ

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

points de données

xβσ2y=N(xβ,σ2)

12πσ2exp((yixiβ)22σ2)

βσ(xi,yi)L

L=i=1nyi=i=1n12πσ2exp((yixiβ)22σ2)
log(L)=i=1nn2log(2π)n2log(σ2)12σ2(yixiβ)2

θ=(β,σ)

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

βσ

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

surface de vraisemblance

0,β=2.7,σ=1.3

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

lmσ2

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16

Merci @gregmacfarlane pour cette réponse agréable et utile. Un point mineur: ne devrions-nous pas d'abord définir beta et sigma2 dans le code de ligne R data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? Et est 0 +utile?
emeryville

1
Oui betaet sigma2aurait besoin d'être défini pour que ce code soit exécuté. Je les ai cachés pour que nous puissions "découvrir" les paramètres, qui sont presque toujours inconnus lorsque vous exécutez MLE.
gregmacfarlane

Vous avez également raison de dire que 0 +rien ne fait réellement rien; Je l'ai simplement incluse parce que les modèles de régression ont généralement une interception. Et si le MLE essayait d'optimiser beta, sigma2 et alpha , je ne pourrais pas montrer le beau tracé de surface (à moins que vous ne connaissiez un package R qui effectuera un tracé en quatre dimensions!)
gregmacfarlane

2
@gregmacfarlane excellente réponse et m'a beaucoup aidé. Cependant, il existe des erreurs de variance par rapport à l'écart type. S'il vous plaît voir ici. stats.stackexchange.com/questions/267534/...
Haitao Du

2
@ hxd1011 Merci d'avoir signalé cette erreur; J'ai corrigé l'erreur.
gregmacfarlane

29

L'estimation de vraisemblance maximale (ML) d'un paramètre est la valeur de ce paramètre sous laquelle les données réelles observées sont les plus probables, par rapport à toute autre valeur possible du paramètre.

L'idée est qu'il existe un certain nombre de valeurs "vraies" de paramètres qui auraient pu conduire à vos données réellement observées avec une probabilité non nulle (bien que peut-être petite). Mais l'estimation de la valeur maximale donne la valeur du paramètre qui aurait conduit à l'observation des données avec la probabilité la plus élevée.

Cela ne doit pas être confondu avec la valeur du paramètre qui est le plus susceptible d'avoir réellement produit vos données!

OH

Vous devez vous rappeler que "probabilité" est un terme technique. La probabilité de H, Pr (O | H) et la probabilité a posteriori de H, Pr (H | O) sont des quantités différentes et peuvent avoir des valeurs différentes. La probabilité de H est la probabilité que H confère à O, pas la probabilité que O confère à H. Supposons que vous entendiez un bruit venant du grenier de votre maison. Vous considérez l'hypothèse qu'il y a des gremlins qui jouent au bowling. La probabilité de cette hypothèse est très élevée, car s'il y a des gremlins qui jouent au bowling dans le grenier, il y aura probablement du bruit. Mais vous ne pensez sûrement pas que le bruit rend très probable la présence de gremlins au bowling. Dans cet exemple, Pr (O | H) est élevé et Pr (H | O) est faible. L'hypothèse de Gremlin a une probabilité élevée (au sens technique) mais une probabilité faible.

En termes de l'exemple ci-dessus, ML serait favorable à l'hypothèse de Gremlin. Dans cet exemple comique, c'est clairement un mauvais choix. Mais dans beaucoup d’autres cas plus réalistes, l’estimation de la marge maximale peut être très raisonnable.

Référence

Sober, E. (2008). Evidence and Evolution: la logique derrière la science. La presse de l'Universite de Cambridge.


8
Cela me semble être la première réponse qui rend ce point crucial clairement et simplement. Notez cependant que cela "aurait conduit à vos données observées avec la probabilité la plus élevée " si vos données étaient discrètes (comme des données binomiales), mais "aurait conduit à vos données observées avec la plus grande densité de joints " si vos données étaient continues (comme des données normales).
gung - Réintégrer Monica

6
Merci @gung. Je suis conscient de la technicité que vous avez mentionnée, mais je craignais un peu que toute discussion sur les "densités jointes" ne soit pas assez compliquée pour un "profane" ...
Jake Westfall

Je suis d'accord avec toi, et j'ai pensé que tu savais à ce sujet. Je pensais juste que je le mentionnerais car il est apparu ailleurs sur ce fil.
gung - Réintégrer Monica

17

Le MLE est la valeur du paramètre d'intérêt qui maximise la probabilité d'observer les données que vous avez observées. En d'autres termes, c'est la valeur du paramètre qui rend les données observées les plus susceptibles d'avoir été observées.


2
Et si la fonction de vraisemblance ainsi maximisée était, de l’autre côté, la fonction de densité de probabilité issue d’une variable aléatoire continue? Est-ce que le MLE maximise encore une probabilité? Et si non, que fait-il?
Alecos Papadopoulos

@AlecosPapadopoulos Je crois comprendre que la fonction de vraisemblance peut être considérée comme une fonction de probabilité du paramètre et que la MLE est une valeur de paramètre qui maximise cette fonction de probabilité. Cependant votre question suggère qu'il y a plus de nuances?
Heisenberg

4
@Heisenberg La réponse traitait la fonction de vraisemblance comme la fonction de probabilité conjointe de l'échantillon (pour laquelle la ML fournit le maximum par rapport aux paramètres et maximise ainsi la probabilité pour tout échantillon). Et ceci est correct lorsque les va sont discrets, mais pas quand ils sont continus, car la densité des joints, par construction, n'est pas une probabilité conjointe. Je ne qualifierais pas cela de "nuance", c'est une différence fondamentale entre le monde discret et le monde continu.
Alecos Papadopoulos

@AlecosPapadopoulos je vois. Vous contestez donc l'utilisation du mot "fonction de probabilité" et "fonction de densité". C'est correct.
Heisenberg

ϵϵϵ

10

Il est possible de dire quelque chose sans utiliser (beaucoup) de mathématiques, mais pour les applications statistiques réelles du maximum de vraisemblance, vous avez besoin de mathématiques.

L'estimation du maximum de vraisemblance est liée à ce que les philosophes appellent l' inférence à la meilleure explication , à savoir l' enlèvement . Nous l'utilisons tout le temps! Notez que je ne dis pas que le maximum de vraisemblance est un enlèvement, que ce terme est beaucoup plus large et que certains cas d’estimation bayésienne (avec un préalable empirique) peuvent probablement aussi être considérés comme un enlèvement. Quelques exemples tirés de http://plato.stanford.edu/entries/abduction/#Aca Voir aussi https://en.wikipedia.org/wiki/Abductive_reasoning (En informatique, "l'enlèvement" est également utilisé dans le contexte de modèles non probabilistes.)

  1. "Vous savez que Tim et Harry ont récemment eu une terrible dispute qui a mis fin à leur amitié. Maintenant, quelqu'un vous dit qu'elle vient de voir Tim et Harry faire leur jogging ensemble. La meilleure explication à cela est que vous pouvez penser, c'est qu'ils se sont maquillés. Vous concluez qu'ils sont à nouveau amis. " Ceci parce que cette conclusion rend l'observation que vous essayez d'expliquer plus probable que selon l'alternative, qu'ils ne parlent toujours pas.

Autre exemple: vous travaillez dans un jardin d'enfants et un jour, un enfant commence à marcher d'une manière étrange en disant qu'il s'est cassé les jambes. Vous examinez et trouvez rien de mal. Ensuite, vous pouvez raisonnablement en déduire que l’un de ses parents s’est cassé les jambes, puisqu’il agit souvent de la manière décrite, ce qui constitue une "déduction de la meilleure explication" et un exemple de probabilité maximale (informelle). (et, bien sûr, cette explication peut être fausse, elle n’est que probable, non certaine. L’enlèvement / la probabilité maximale ne permet pas de tirer des conclusions sûres).

L'enlèvement consiste à trouver un modèle dans les données, puis à rechercher des théories possibles susceptibles de rendre ces modèles probables. Ensuite, choisir l’explication possible, qui rend le motif observé le plus probable, n’est que le maximum de vraisemblance!

Le meilleur exemple d'abduction en science est l'évolution . Il n'y a pas une seule observation qui implique l'évolution, mais l'évolution rend les tendances observées plus probables que d'autres explications.

Un autre exemple typique est le diagnostic médical? Quelles conditions médicales possibles rendent le type de symptômes observé le plus probable? Encore une fois, c'est aussi un maximum de probabilité! (Ou, dans ce cas, peut-être que l'estimation bayésienne est un meilleur ajustement, nous devons prendre en compte la probabilité antérieure des différentes explications possibles). Mais c’est une technicité, dans ce cas nous pouvons avoir des a priori empiriques qui peuvent être considérés comme une partie naturelle du modèle statistique, et ce que nous appelons modèle , ce que nous appelons avant est une convention statistique arbitraire (*).

Pour revenir à la question initiale sur l’explication de MLE par un terme profane, voici un exemple simple: Quand mes filles avaient 6 ou 7 ans, je leur ai posé la question suivante. Nous avons fabriqué deux urnes (deux boîtes à chaussures). Dans l'une, nous avons placé 2 boules noires, 8 rouges, dans l'autre les numéros ont été remplacés. Ensuite, nous avons mélangé les urnes et nous en avons dessiné une au hasard. Ensuite, nous avons pris au hasard une balle de cette urne. C'était rouge

Puis j'ai demandé: De quelle urne pensez-vous que la balle rouge était tirée? Après environ une seconde de réflexion, ils répondirent (à la chorale): De celle avec 8 boules rouges!

Alors j'ai demandé: pourquoi pensez-vous ainsi? Et de nouveau, après environ une seconde (inchoir encore): "Parce qu’il est alors plus facile de dessiner une boule rouge!". C'est-à-dire, plus facile = plus probable . C’était le maximum de vraisemblance (c’est un exercice facile d’écrire le modèle de probabilité) et c’est une "déduction de la meilleure explication", c’est-à-dire un enlèvement.

(*) Pourquoi est-ce que je dis "arbitraire"? Pour continuer le problème de diagnostic médical, disons que le patient est un homme avec une difficulté à diagnostiquer la condition que le médecin n'a pas vue plus tôt. Ensuite, disons, lors de la conversation avec le patient, il ressort que celui-ci s’est rendu en Afrique tropicale il ya peu de temps. Il s’agit là d’un nouvel élément de données, mais son effet dans les modèles classiques (utilisés dans ce genre de situation, qu’il soit formel ou informel) consistera à modifier l’anticipation des explications difficiles possibles, étant donné que les maladies tropicales telles que le paludisme vont s’aggraver. probabilité antérieure. Donc, les nouvelles données entrent dans l’analyse dans l’ antérieur .


googler pour "raisonnement abductif et estimation du maximum de vraisemblance" donne beaucoup de résultats pertinents.
kjetil b halvorsen

1
(1/2) Bonjour kjetil, c'est une réponse fantastique et je l'apprécie. (De plus, le texte de présentation sur vos filles est mignon. :)) En tout cas, j'ai du mal à développer ma propre compréhension solide de "La probabilité", et j'ai formalisé ma question ici .
Creatron

1
L(θ|x)=P(x|θ)

9

θθ

θθθ

(Si les données sont continues, lisez «densité de probabilité» pour «probabilité». Ainsi, si elles sont mesurées en pouces, la densité sera mesurée en probabilité par pouce.)


3
y

@ DimitriyV.Masterov En effet, ils ne le sont pas. Même si vous le pouvez, si je me souviens bien, la probabilité n'a été définie (par Fisher, je pense) que jusqu'à une constante multiplicative.
Glen_b

@ Dimitriy, bon point; Je l'ai ajouté.
Scortchi - Réintégrer Monica

1
@Glen, Dans la plupart des cas - tests du rapport de vraisemblance, estimation du maximum de vraisemblance - vous pouvez supprimer la constante. Pour comparer l'AIC entre des modèles non imbriqués, vous ne pouvez pas. De toute façon, ne pensez pas que cela doit entrer dans la définition du profane.
Scortchi

1
Tant que vous laissez tomber la même constante, vous pouvez toujours le faire.
Glen_b

6

Jouons à un jeu: je suis dans une pièce sombre, personne ne peut voir ce que je fais mais vous savez que soit (a) je jette un dé et compte le nombre de '1 comme' succès 'ou b) je jette une pièce de monnaie et je compte le nombre de têtes comme "succès".

Comme je le disais, vous ne pouvez pas voir laquelle des deux je fais mais je vous donne juste une seule information: je vous dis que j'ai jeté un dé 100 fois ou j'ai jeté la pièce 100 fois et que j'ai eu 17 succès .

La question est de deviner si j'ai jeté un dé ou une pièce de monnaie.

Vous allez probablement répondre que j'ai jeté un dé.

Si vous le faites, vous avez probablement «deviné en maximisant la probabilité», car si j'observe 17 succès sur 100 expériences, il est plus probable que j'ai jeté un dé que d'avoir jeté une pièce de monnaie.

Vous avez donc pris cette valeur de la «probabilité de réussite» (1/6 pour un dé et 1/2 pour une pièce), ce qui la rend plus susceptible d’observer 17 succès sur 100. «Plus probable» signifie que le La chance que vous ayez 17 fois un '1' sur 100 lancers de dés est plus élevée que la chance d'avoir 17 têtes sur 100 lancers de pièces.


Comme je le disais dans ma réponse, "enlèvement" ou "déduction de la meilleure explication".
kjetil b halvorsen

@kjetil b halvorsen: Je ne comprends pas ce que vous voulez dire?

J'essaie seulement de comparer à ma réponse ci-dessus. Ces termes sont utilisés dans d'autres domaines (philosoph, CS) pour plus ou moins la même idée: Choisissez l'explication qui correspond le mieux aux faits, avec un modèle probabiliste conduisant au maximum de vraisemblance.
kjetil b halvorsen

@kjetil b halvorsen: puis-je alors conclure que mon exemple est ok? Pour dire la même chose en termes simples :-)?

1

XμμμLμfμ

L(μ|X)=i=1Nf(xi,μ)

ou log-vraisemblance:

lnL(μ|X)=i=1Nlnf(xi,μ)

μf

μ

Exemple

Premièrement, générons de fausses données:

set.seed(123)
x <- rnorm(1000, 1.78)

μX

llik <- function(mu) sum(log(dnorm(x, mu)))

μ

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

La même chose pourrait être obtenue plus rapidement avec un algorithme d'optimisation qui recherche la valeur maximale d'une fonction d'une manière plus intelligente que la force brute . Il existe de nombreux exemples, par exemple l'un des plus élémentaires de R est optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

entrez la description de l'image ici

μ1.78μoptimize

Cet exemple montre comment utiliser plusieurs approches pour trouver la valeur qui maximise la fonction de vraisemblance afin de trouver la "meilleure" valeur de votre paramètre.


0

{y1,y2,,yn}θ={μ,σ2}{y1,y2,,yn}θ={μ,σ2}p(y1,y2,,yn|θ)

L(θ|y1,y2,,yn)θL(θ)θ{μ,σ2}L{μ,σ2}L(θ)


0

Supposons que vous ayez une pièce de monnaie. Le lancer peut donner des têtes ou des queues. Mais vous ne savez pas si c'est une pièce équitable. Donc, vous le jetez 1000 fois. Il revient en tête 1000 fois et jamais en queue.

0.52000

Le MLE essaie de vous aider à trouver la meilleure explication dans une situation comme celle-ci - lorsque vous obtenez un résultat et que vous souhaitez déterminer quelle est la valeur du paramètre qui est le plus susceptible de donner ce résultat. Ici, nous avons 2000 têtes sur 2000 lancers - nous utiliserions donc un MLE pour déterminer quelle probabilité d'obtenir la meilleure tête explique comment obtenir 2000 têtes sur 2000 lancers.

C'est l' estimateur de vraisemblance maximale . Il estime le paramètre (ici, il s'agit d'une fonction de distribution de probabilité) le plus susceptible d'avoir produit le résultat que vous recherchez actuellement.

1


-1

La façon dont je comprends MLE est la suivante: vous ne pouvez voir que ce que la nature veut que vous voyiez. Les choses que vous voyez sont des faits. Ces faits ont un processus sous-jacent qui les a générés. Ces processus sont cachés, inconnus, doivent être découverts. La question qui se pose alors est la suivante: compte tenu du fait observé, quelle est la probabilité que le processus P1 le génère? Quelle est la probabilité que le processus P2 l’ait généré? Et ainsi de suite ... Une de ces probabilités sera maximale. MLE est une fonction qui extrait ce maximum de vraisemblance.

Pensez à un tirage au sort; la pièce est biaisée. Personne ne connaît le degré de partialité. Cela peut aller de o (toutes les queues) à 1 (toutes les têtes). Une pièce équitable sera 0.5 (tête / queue également probable). Lorsque vous faites 10 lancers et que vous observez 7 têtes, le MLE est ce degré de biais qui est plus susceptible de produire le fait observé de 7 têtes sur 10 lancers.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.