Y a-t-il toujours un maximiseur pour tout problème MLE?

23

Je me demande s'il y a toujours un maximiseur pour tout problème d'estimation de vraisemblance maximale (log)? En d'autres termes, existe-t-il une distribution et certains de ses paramètres pour lesquels le problème MLE n'a pas de maximiseur?

Ma question vient d'une affirmation d'un ingénieur selon laquelle la fonction de coût (vraisemblance ou log-vraisemblance, je ne suis pas sûr de ce qui était prévu) dans MLE est toujours concave et donc elle a toujours un maximiseur.

Merci et salutations!

maximum-likelihood optimization

— Tim
source

8

(+1) Êtes-vous sûr qu'il n'y a pas certaines qualifications qui n'ont pas été précisées dans votre question? En l'état, la déclaration de l'ingénieur est fausse à bien des égards, il est presque difficile de savoir par où commencer. :)

— cardinal

@cardinal: J'ai essentiellement écrit ce que j'ai entendu. Mais j'avoue que je risque de manquer quelque chose.

— Tim

5

Contre-exemple (convexité): Soit iid . Bien qu'il existe un MLE unique, ni la vraisemblance ni la log-vraisemblance ne sont convexes dans .

X_{1}, X_{2}, \dots, X_{n}

$X_1,X_2,\ldots,X_n$

N (0, σ^{2})

$\mathcal N(0,\sigma^2)$

σ^{2}

$\sigma^2$

— Cardinal

3

La régression logistique @Tim est un exemple de base où le MLE n'existe pas toujours. De plus, pour certaines fonctions de liaison, la probabilité de log n'est pas concave.

30

L'ingénieur avait peut-être à l'esprit les familles exponentielles canoniques: dans leur paramétrisation naturelle, l'espace des paramètres est convexe et la log-vraisemblance est concave (voir Thm 1.6.3 dans Bickel & Doksum's Mathematical Statistics, Volume 1 ). De plus, dans certaines conditions techniques douces (essentiellement que le modèle soit de "rang complet", ou de manière équivalente, que le paramètre naturel soit identifiable), la fonction de vraisemblance logarithmique est strictement concave, ce qui implique qu'il existe un maximiseur unique. (Corollaire 1.6.2 dans la même référence.) [De plus, les notes de cours citées par @biostat font la même remarque.]

Notez que la paramétrisation naturelle d'une famille exponentielle canonique est généralement différente de la paramétrisation standard. Ainsi, alors que @cardinal souligne que la log-vraisemblance pour la famille n'est pas convexe dans , elle sera concave dans les paramètres naturels, qui sont et . $\mathcal{N}(\mu,\sigma^2)$ $\sigma^2$ $\eta_1 = \mu / \sigma^2$ $\eta_2 = -1/\sigma^2$

— DavidR
source

2

(+1) Belle réponse. Comme je l'ai laissé entendre dans mes commentaires au PO, c'est la réponse que j'espérais voir publiée (même le contre-exemple a été soigneusement choisi dans cet esprit). :)

— Cardinal

2

Pouvez-vous le montrer dans un modèle gaussien multivarié?

— Royi

6

La fonction de vraisemblance atteint souvent le maximum pour l'estimation du paramètre d'intérêt. Néanmoins, parfois le MLE n'existe pas, comme pour la distribution des mélanges gaussiens ou les fonctions non paramétriques, qui a plus d'un pic (bi ou multimodal). Je suis souvent confronté au problème de l'estimation des paramètres inconnus de la génétique des populations, c'est-à-dire les taux de recombinaison, l'effet de la sélection naturelle.

@Cardinal souligne également que l'espace paramétrique est illimité.

De plus, je recommanderais l' article suivant , voir la section 3 (pour la fonction) et la Fig.3. Cependant, il existe des informations documentaires très utiles et pratiques sur MLE.

— Biostat
source

3

Je pense que je dois mal comprendre votre exemple. Quelles fonctions quadratiques ont plus d'un pic?

— Cardinal

@cardinal: Laissez-moi essayer d'expliquer. Votre point sur le paramètre illimité est l'une des raisons pour lesquelles la fonction de vraisemblance n'atteint pas le maximum même dans un exemple simple de distribution normale. Cependant, mon point de vue est du point de vue de l'optimisation qu'il existe un problème populaire de maxima locaux et mondiaux. J'ai souvent rencontré ce problème dans la génétique des populations lors de l'estimation des taux de recombinaison. De plus, voir cet article section 3 (pour la fonction) et Fig 3. URL de l'article: citeseerx.ist.psu.edu/viewdoc/…

— Biostat

Donc, vous dites que "les fonctions quadratiques avec plus d'un pic" sont peut-être une référence à, par exemple, un modèle de mélange gaussien? Si tel est le cas, une modification pourrait probablement dissiper une certaine confusion.

— Cardinal

Maintenant, il est mis à jour.

— Biostat

2

(+1) Pour la mise à jour. Il est à noter que dans les modèles de mélange gaussiens, la vraisemblance non bornée et les maxima locaux multiples sont présents, en général. Pour aggraver les choses, la probabilité devient illimitée à des solutions particulièrement pathologiques. En général, plusieurs maxima peuvent ne pas être aussi mauvais d'un problème. Dans certains cas, ces maxima convergent les uns vers les autres assez rapidement pour que le choix de l'un d'entre eux puisse encore produire un estimateur raisonnable (pair et efficace) du paramètre d'intérêt de manière asymptotique.

— cardinal

3

J'avoue que je manque peut-être quelque chose, mais -

S'il s'agit d'un problème d'estimation et que le but est d'estimer un paramètre inconnu, et que le paramètre est connu pour provenir d'un ensemble fermé et borné, et que la fonction de vraisemblance est continue, alors il doit exister une valeur pour ce paramètre qui maximise la fonction de vraisemblance. En d'autres termes, un maximum doit exister. (Il n'est pas nécessaire qu'il soit unique, mais au moins un maximum doit exister. Il n'y a aucune garantie que tous les maxima locaux seront des maxima globaux, mais ce n'est pas une condition nécessaire pour qu'un maximum existe.)

Je ne sais pas si la fonction de vraisemblance doit toujours être convexe, mais ce n'est pas une condition nécessaire pour qu'il existe un maximum.

Si j'ai oublié quelque chose, je serais heureux d'entendre ce qui me manque.

— DW
source

4

En l'absence d'hypothèses supplémentaires, la déclaration donnée concernant les maxima est fausse. Par exemple, si l'espace des paramètres est fermé et borné et que la fonction de vraisemblance est continue dans les paramètres, un maximum doit exister. En l'absence de l'une ou l'autre de ces conditions supplémentaires, le résultat n'a pas besoin de tenir. En ce qui concerne la convexité, elle échoue même dans les exemples les plus simples et les plus courants. :)

— cardinal

2

(+1) La limite de l'espace des paramètres n'est pas valable dans de nombreux cas simples, même. Mais, pour des raisons pratiques, nous savons généralement que nos paramètres sont limités. :)

— Cardinal

3

Peut-être que quelqu'un trouvera l'exemple simple suivant utile.

$\theta$ $\theta \in (0,1)$ $(0,1)$ $\theta$

{\begin{cases} θ & têtes \\ 1 - θ & queues \end{cases} .

$\begin{cases} \theta & \text{heads} \\ 1-\theta & \text{tails} \end{cases} .$

θ

$\theta$

(0, 1)

$(0,1)$

— mef
source