Pourquoi le MLE est-il logique, étant donné que la probabilité d'un échantillon individuel est de 0?

C'est une sorte de pensée étrange que j'ai eue en examinant certaines anciennes statistiques et pour une raison quelconque, je n'arrive pas à penser à la réponse.

Un PDF continu nous indique la densité des valeurs d'observation dans une plage donnée. À savoir, si $X \sim N(\mu,\sigma^2)$ , par exemple, alors la probabilité qu'une réalisation se situe entre $a$ et $b$ est simplement $\int_a^{b}\phi(x)dx$ où $\phi$ est la densité de la normale standard.

Lorsque nous pensons à faire une estimation MLE d'un paramètre, disons de $\mu$ , nous écrivons la densité conjointe de, disons $N$ , variables aléatoires $X_1 .. X_N$ et différencier la log-vraisemblance wrt à $\mu$ , mettre égal à 0 et résoudre pour $\mu$ . L'interprétation souvent donnée est «compte tenu des données, quel paramètre rend cette fonction de densité la plus plausible».

La partie qui me dérange est la suivante: nous avons une densité de $N$ rv, et la probabilité que nous obtenions une réalisation particulière, disons notre échantillon, est exactement 0. Pourquoi est-il même logique de maximiser la densité conjointe compte tenu de nos données ( puisque encore une fois la probabilité d'observer notre échantillon réel est exactement 0)?

La seule rationalisation que je pourrais trouver est que nous voulons que le PDF soit le plus élevé possible autour de notre échantillon observé afin que l'intégrale dans la région (et donc la probabilité d'observer des choses dans cette région) soit la plus élevée.

normal-distribution maximum-likelihood pdf

— Alex
source

Pour la même raison, nous utilisons des densités de probabilité stats.stackexchange.com/q/4220/35989

— Tim

Je comprends (je pense) pourquoi il est logique d'utiliser des densités. Ce que je ne comprends pas, c'est pourquoi il est logique de maximiser une densité conditionnelle à l'observation d'un échantillon qui a 0 probabilité de se produire.

— Alex

Parce que les densités de probabilité nous indiquent quelles valeurs sont relativement plus probables que les autres.

— Tim

Si vous avez le temps de répondre pleinement à la question, je pense que ce serait plus utile pour moi et pour la prochaine personne.

— Alex

Parce que, heureusement, la probabilité n'est pas une probabilité!

— AdamO

La probabilité de tout échantillon, $\mathbb{P}_\theta(X=x)$ , est égale à zéro et pourtant un échantillon est réalisé en tirant d'une distribution de probabilité. La probabilité n'est donc pas le bon outil pour évaluer un échantillon et la probabilité qu'il se produise. La vraisemblance statistique, telle que définie par Fisher (1912), est basée sur l'argument limitatif de la probabilité d'observer l'échantillon $x$ dans un intervalle de longueur $\delta$ lorsque $\delta$ passe à zéro (citant Aldrich, 1997) :

$\qquad\qquad\qquad$

lors de la renormalisation de cette probabilité par $\delta$ . Le terme de fonction de vraisemblance n'est introduit que dans Fisher (1921) et de maximum de vraisemblance dans Fisher (1922).

Bien qu'il passe sous la dénomination de `` valeur la plus probable '' et utilise un principe de probabilité inverse (inférence bayésienne) avec un a priori plat, Carl Friedrich Gauß avait déjà calculé en 1809 un estimateur du maximum de vraisemblance pour le paramètre de variance d'une distribution normale. Hald (1999) mentionne plusieurs autres occurrences d'estimateurs du maximum de vraisemblance avant l'article de Fisher de 1912, qui établit le principe général.

$(x_1,\ldots,x_n)$

\frac{1}{n} \sum_{i = 1}^{n} \log f_{θ} (x_{i})

$\frac{1}{n} \sum_{i=1}^n \log f_\theta(x_i)$

E [\log f_{θ} (X)] = \int \log f_{θ} (x) f_{0} (x) d x

$\mathbb{E}[\log f_\theta(X)]=\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{0}

$f_0$

θ

$\theta$

θ

$\theta$

\int \log \frac{f_{0} (x)}{f_{θ} (x)} f_{0} (x) d x = \underset{constant in θ}{\underset{⏟}{\int \log f_{0} (x) f_{0} (x) d x}} - \int \log f_{θ} (x) f_{0} (x) d x

$\int \log \dfrac{f_0(x)}{f_\theta(x)}\, f_0(x)\,\text{d}x=\underbrace{\int \log f_0(x)\,f_0(x)\,\text{d}x}_{\text{constant}\\\text{in }\theta}-\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{θ}

$f_\theta$

— Xi'an
source

Merci d'avoir répondu. Pourriez-vous développer un peu l'argument KL? Je ne vois pas comment c'est le cas immédiatement.

— Alex