Comment comprendre que le MLE de la variance est biaisé dans une distribution gaussienne?

Illustration PRML de la façon dont le biais se produit en utilisant le maximum de vraisemblance pour déterminer la variance d'un gaussien

Je lis PRML et je ne comprends pas l'image. Pourriez-vous s'il vous plaît donner quelques conseils pour comprendre l'image et pourquoi le MLE de la variance dans une distribution gaussienne est biaisé?

formule 1.55: formule 1.56

μ_{M L E} = \frac{1}{N} \sum_{n = 1}^{N} x_{n}

$\mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n$

σ_{M L E}^{2} = \frac{1}{N} \sum_{n = 1}^{N} (x_{n} - μ_{M L E})^{2}

$\sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2$

machine-learning self-study maximum-likelihood

— ningyuwhut
source

Veuillez ajouter la balise d'auto-apprentissage.

— StatsStudent

pourquoi pour chaque graphique, un seul point de données bleu est visible pour moi? btw, alors que j'essayais d'éditer le débordement de deux indices dans ce post, le système nécessite "au moins 6 caractères" ... embarrassant.

— Zhanxiong

Que voulez-vous vraiment comprendre, l'image ou pourquoi l'estimation de la variance MLE est biaisée? Le premier est très déroutant mais je peux expliquer le second.

— TrynnaDoStat

ouais, j'ai trouvé dans la nouvelle version chaque graphique a deux données bleues, mon pdf est vieux

— ningyuwhut

@TrynnaDoStat désolé pour ma question n'est pas clair. ce que je veux savoir, c'est pourquoi l'estimation de la variance MLE est biaisée. et comment cela est exprimé dans ce graphique

— ningyuwhut

Intuition

Le biais vient "(pas du tout d'un terme technique) du fait que est biaisé pour . La question naturelle est, "eh bien, quelle est l'intuition pour laquelle est biaisé pour "? L'intuition est que dans une moyenne d'échantillon non quadratique, nous manquons parfois la vraie valeur en surestimant et parfois en sous-estimant. Mais, sans quadrature, la tendance à surestimer et à sous-estimer s'annule mutuellement. Cependant, lorsque nous quadrillons la tendance à sous-estimer (manquer la vraie valeur de $E[\bar{x}^2]$ $\mu^2$ $E[\bar{x}^2]$ $\mu^2$ $\mu$ $\bar{x}$ $\mu$ par un nombre négatif) devient également carré et devient ainsi positif. Ainsi, il n'annule plus et il y a une légère tendance à surestimer.

Si l'intuition derrière pourquoi est biaisé pour n'est toujours pas claire, essayez de comprendre l'intuition derrière l'inégalité de Jensen (bonne explication intuitive ici ) et appliquez-la à . $x^2$ $\mu^2$ $E[x^2]$

Prouvons que le MLE de variance pour un échantillon iid est biaisé. Ensuite, nous vérifierons analytiquement notre intuition.

Preuve

Soit . $\hat{\sigma}^2 = \frac{1}{N}\sum_{n = 1}^N (x_n - \bar{x})^2$

Nous voulons montrer . $E[\hat{\sigma}^2] \neq \sigma^2$

E [{\hat{σ}}^{2}] = E [\frac{1}{N} \sum_{n = 1}^{N} (x_{n} - \bar{x})^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} (x_{n}^{2} - 2 x_{n} \bar{x} + {\bar{x}}^{2})] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - \sum_{n = 1}^{N} 2 x_{n} \bar{x} + \sum_{n = 1}^{N} {\bar{x}}^{2}]

$E[\hat{\sigma}^2] = E[\frac{1}{N}\sum_{n = 1}^N (x_n - \bar{x})^2] = \frac{1}{N}E[\sum_{n = 1}^N (x_n^2 - 2x_n\bar{x} + \bar{x}^2)] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2 - \sum_{n = 1}^N 2x_n\bar{x} + \sum_{n = 1}^N \bar{x}^2]$

En utilisant le fait que et , $\sum_{n = 1}^N x_n = N\bar{x}$ $\sum_{n = 1}^N \bar{x}^2 = N\bar{x}^2$

\frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - \sum_{n = 1}^{N} 2 x_{n} \bar{x} + \sum_{n = 1}^{N} {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - 2 N {\bar{x}}^{2} + N {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2} - N {\bar{x}}^{2}] = \frac{1}{N} E [\sum_{n = 1}^{N} x_{n}^{2}] - E [{\bar{x}}^{2}] = \frac{1}{N} \sum_{n = 1}^{N} E [x_{n}^{2}] - E [{\bar{x}}^{2}] = E [x_{n}^{2}] - E [{\bar{x}}^{2}]

$\frac{1}{N}E[\sum_{n = 1}^N x_n^2 - \sum_{n = 1}^N 2x_n\bar{x} + \sum_{n = 1}^N \bar{x}^2] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2 - 2N\bar{x}^2 + N\bar{x}^2]=\frac{1}{N}E[\sum_{n = 1}^N x_n^2 - N\bar{x}^2] = \frac{1}{N}E[\sum_{n = 1}^N x_n^2] - E[\bar{x}^2] = \frac{1}{N}\sum_{n = 1}^N E[x_n^2] - E[\bar{x}^2] \\= E[x_n^2] - E[\bar{x}^2]$

Avec la dernière étape qui suit car est égal sur raison de la même distribution. $E[x_n^2]$ $n$

Maintenant, rappelez-vous la définition de la variance qui dit . De là, nous obtenons ce qui suit $\sigma^2_x = E[x^2] - E[x]^2$

E [x_{n}^{2}] - E [{\bar{x}}^{2}] = σ_{x}^{2} + E [x_{n}]^{2} - σ_{\bar{x}}^{2} - E [x_{n}]^{2} = σ_{x}^{2} - σ_{\bar{x}}^{2} = σ_{x}^{2} - V a r (\bar{x}) = σ_{x}^{2} - V a r (\frac{1}{N} \sum_{n = 1}^{N} x_{n}) = σ_{x}^{2} - (\frac{1}{N})^{2} V a r (\sum_{n = 1}^{N} x_{n})

$E[x_n^2] - E[\bar{x}^2] = \sigma^2_x + E[x_n]^2 - \sigma^2_\bar{x} - E[x_n]^2 = \sigma^2_x - \sigma^2_\bar{x} = \sigma^2_x - Var(\bar{x}) = \sigma^2_x - Var(\frac{1}{N}\sum_{n = 1}^Nx_n) = \sigma^2_x - \bigg(\frac{1}{N}\bigg)^2Var(\sum_{n = 1}^Nx_n)$

Notez que nous avons correctement mis au carré la constante en la retirant de . Portez une attention particulière à cela! $\frac{1}{N}$ $Var()$

σ_{x}^{2} - (\frac{1}{N})^{2} V a r (\sum_{n = 1}^{N} x_{n}) = σ_{x}^{2} - (\frac{1}{N})^{2} N σ_{x}^{2} = σ_{x}^{2} - \frac{1}{N} σ_{x}^{2} = \frac{N - 1}{N} σ_{x}^{2}

$\sigma^2_x - \bigg(\frac{1}{N}\bigg)^2Var(\sum_{n = 1}^Nx_n) = \sigma^2_x - \bigg(\frac{1}{N}\bigg)^2N \sigma^2_x = \sigma^2_x - \frac{1}{N}\sigma^2_x = \frac{N-1}{N}\sigma^2_x$

ce qui n'est bien sûr pas égal à . $\sigma_x^2$

Vérifier analytiquement notre intuition

Nous pouvons quelque peu vérifier l'intuition en supposant que nous connaissons la valeur de et en la connectant à la preuve ci-dessus. Puisque nous connaissons maintenant , nous n'avons plus besoin d'estimer et donc nous ne le surestimons jamais avec . Voyons que cela "supprime" le biais dans . $\mu$ $\mu$ $\mu^2$ $E[\bar{x}^2]$ $\hat{\sigma}^2$

Soit . $\hat{\sigma}_\mu^2 = \frac{1}{N}\sum_{n = 1}^N (x_n - \mu)^2$

A partir de la preuve ci-dessus, reprenons remplaçant par la vraie valeur . $E[x_n^2] - E[\bar{x}^2]$ $\bar{x}$ $\mu$

E [x_{n}^{2}] - E [μ^{2}] = E [x_{n}^{2}] - μ^{2} = σ_{x}^{2} + E [x_{n}]^{2} - μ^{2} = σ_{x}^{2}

$E[x_n^2] - E[\mu^2] = E[x_n^2] - \mu^2 = \sigma^2_x + E[x_n]^2 - \mu^2= \sigma^2_x$

ce qui est impartial!

— TrynnaDoStat
source

+1 Il convient de noter que votre démonstration ne nécessite pas que ait une distribution gaussienne. (Cependant, pour d'autres distributions, la variance de l'échantillon peut ne pas être le MLE pour le paramètre de variance.)

X

$X$

— whuber

Merci pour votre explication. J'ai besoin d'un peu de temps pour le comprendre. De plus, j'ai trouvé une erreur dans les équations. Pouvez-vous le vérifier? Merci!

— ningyuwhut

@ whuber - Je ne sais pas pourquoi vous avez dit ".. la démonstration ne nécessite pas que ait une distribution gaussienne.". Nous ne parlerions pas de solution de variance ML pour chaque distribution, par exemple une distribution binomiale. Donc, implicitement, nous supposons que la distribution X a la variance comme l'un des paramètres.

X

$X$

— KGhatak