MLE signifie-t-il toujours que nous connaissons le PDF sous-jacent de nos données, et EM signifie-t-il que nous ne le savons pas?

J'ai quelques questions conceptuelles simples que j'aimerais clarifier concernant MLE (Maximum Lik vraisemblable Estimation), et quel lien il a, le cas échéant, avec EM (Expectation Maximization).

Si je comprends bien, si quelqu'un dit "Nous avons utilisé le MLE", cela signifie-t-il automatiquement qu'il a un modèle explicite du PDF de ses données? Il me semble que la réponse à cette question est oui. Autrement dit, si à tout moment quelqu'un dit "MLE", il est juste de lui demander quel PDF il suppose. Serait-ce correct?

Enfin, sur EM, je crois comprendre qu'en EM, nous ne connaissons pas - ou n'avons pas besoin de savoir - le PDF sous-jacent de nos données. C'est ma compréhension.

Je vous remercie.

estimation maximum-likelihood expectation-maximization

— Creatron
source

Le "M" dans EM signifie Maximisation ... de vraisemblance. Pour noter une probabilité, nous avons besoin d'un pdf. EM est un moyen de trouver des MLE en présence de «non observables» dans un certain sens (qui sont remplis à l'étape E). Autrement dit, pour utiliser EM, vous avez besoin d'un modèle explicite.

— Glen_b -Reinstate Monica

@Glen_b Merci Gleb_b. Donc, 1) serait-il correct de dire que dans EM, comme dans MLE, nous supposons toujours un modèle du PDF des données "? Cela signifie que si quelqu'un dit" Nous avons utilisé MLE / EM ", nous pouvons assez demander:" Qu'est-ce que Les fichiers PDF supposiez-vous ". Serait-ce une évaluation correcte? 2) Enfin, en ce qui concerne l'EM, je pense que les inobservables auxquels vous faites référence sont les probabilités de fichiers PDF particuliers composant le mélange, correct? Merci d'avance.

— Creatron

Notez qu'il existe des méthodes non paramétriques de maximum de vraisemblance. Recherchez Kaplan-Meier.

— soakley

Creatron - on (1) Notez que EM est un algorithme de calcul des MLE qui serait autrement difficile à gérer. Dans les deux cas, je poserais la question un peu plus générale «quel était votre modèle?», Car il est tout à fait possible que le modèle soit plus complexe que certains pdf simples. On (2) L'algorithme EM ne s'applique pas uniquement aux mélanges; c'est plus général que ça.

— Glen_b -Reinstate Monica

Réponses:

La méthode MLE peut être appliquée dans les cas où quelqu'un connaît la forme fonctionnelle de base du pdf (par exemple, il est gaussien, ou log-normal, ou exponentiel, ou autre), mais pas les paramètres sous-jacents; par exemple, ils ne connaissent pas les valeurs de et dans le pdf: $\mu$ $\sigma$ ou tout autre type de pdf qu'ils supposent. Le travail de la méthode MLE est de choisir les meilleurs (c.plus plausibles)valeurs pour les paramètres inconnus, compte tenu des mesures de données particulièresqui ont été effectivement observés. Donc, pour répondre à votre première question, oui, vous avez toujours le droit de demander à quelqu'un quelleformede pdf il suppose pour son estimation de probabilité maximale; en effet, les valeurs estimées des paramètres qu'ils vous disent ne sont même pas significatives à moins qu'ils ne communiquent d'abord ce contexte.

f (x | μ, σ) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [\frac{- (x - μ)^{2}}{2 σ^{2}}]

$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

f (x | A_{1}, . . ., A_{N}, μ_{1}, . . ., μ_{N}, σ_{1}, . . . σ_{N}) = \sum_{k = 1}^{N} \frac{A_{k}}{\sqrt{2 π σ_{k}^{2}}} \exp [\frac{- (x - μ_{k})^{2}}{2 σ_{k}^{2}}]

$f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right]$

A_{k}

$A_{k}$

N

$N$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$

$N$ $N=1$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=2$ $A_{1}$ $A_{2}$ $\mu_{1}$ $\mu_{2}$ $\sigma_{1}$ $\sigma_{2}$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=1$ $N=2$

$N$ $N$

$N=1$ $N=2$ $N=3$

— stachyra
source

\sum A_{k} = 1

$\sum A_k = 1$

N

$N$

N

$N$

\sum A_{k} = 1

$\sum A_{k} = 1$

N

$N$

N

$N$

N = 4

$N=4$

N = 5

$N=5$

— stachyra

Merci stachyra. Dernière question, le PDF du mélange de données hors (donné dans votre deuxième équation composée d'une somme pondérée de PDF), n'est PAS le même que le PDF commun de tous les échantillons de nos données, qui est un produit de leurs PDF, correct ? (Supposons que les échantillons de données sont IID).

— Creatron

Non, pas du tout - ce sont deux choses complètement différentes. Le pdf commun que vous décrivez ressemble beaucoup plus à la forme de la fonction de vraisemblance utilisée dans MLE. Un manuel pourrait vous être utile ici. Pour MLE, j'aime le chapitre 10 de «Réduction des données et analyse des erreurs pour les sciences physiques» par Philip R. Bevington et D. Keith Robinson, ou la section 6.1 de «Analyse des données statistiques» par Glen Cowan. Pour un exemple spécifique de la façon de faire un type particulier d'implémentation EM, j'aime cette explication, sections 2 à 5.

— stachyra

MLE nécessite la connaissance d'au moins les distributions marginales. Lorsque nous utilisons MLE, nous estimons généralement les paramètres d'une distribution conjointe en faisant une hypothèse iid, puis en factorisant la distribution conjointe en tant que produit des marginaux, que nous connaissons. Il existe des variantes, mais c'est l'idée dans la plupart des cas. Le MLE est donc une méthode paramétrique.

L'algorithme EM est une méthode pour maximiser les fonctions de vraisemblance qui apparaissent dans le cadre d'un algorithme MLE. Il est souvent (généralement?) Utilisé pour les solutions numériques.

Chaque fois que nous utilisons MLE, nous avons besoin au moins des distributions marginales et de certaines hypothèses sur la façon dont l'articulation est liée aux marginaux (indépendance, etc.). Par conséquent, les deux méthodes reposent sur la connaissance des distributions.

— Charles Pehlivanian
source

Merci @Charles qui a du sens. Qu'est-ce que cela signifie alors quand les gens parlent de «MLE non paramétrique». Cette phrase n'a pas de sens à première vue. MLE estime toujours un paramètre de la distribution, non?

— Creatron

Ils parlent peut-être d'ELE (estimation de vraisemblance empirique). Je ne l'ai jamais utilisé; J'essaierai d'expliquer si nécessaire. Sinon, je ne suis pas sûr.

— Charles Pehlivanian