Pourquoi estimons-nous la moyenne en utilisant MLE alors que nous savons déjà que la moyenne est la moyenne des données?

J'ai rencontré un problème dans les manuels pour estimer la moyenne. Le problème des manuels est le suivant:

On suppose que points de données, , ,. . . , , ont été générés par un pdf gaussien unidimensionnel de moyenne inconnue, mais de variance connue. Dériver l'estimation ML de la moyenne. $N$ $x_1$ $x_2$ $x_N$

Ma question est la suivante: pourquoi devons-nous estimer la moyenne à l'aide du MLE alors que nous savons déjà que la moyenne est la moyenne des données? La solution indique également que l'estimation MLE est la moyenne des données. Dois-je faire toutes les étapes fatigantes de maximisation du MLE pour découvrir que la moyenne n'est rien d'autre que la moyenne des données, c'est-à-dire ? $(x_1+x_2+\cdots+x_N)/N$

self-study normal-distribution maximum-likelihood

— Niranjan Kotha
source

Vous pouvez être confondu par deux significations distinctes du mot «méchant». Dans cette question, vous l'utilisez pour faire référence à (a) un paramètre d'une famille de distributions gaussiennes et (b) une statistique qui peut être calculée à partir de données. Vous voudrez peut-être explorer ce que ce site a à dire sur le MLE et les paramètres .

— whuber

Qu'en est-il de fournir la référence du manuel que vous citez?

— Xi'an

Réponses:

Pourquoi devons-nous estimer la moyenne en utilisant MLE alors que nous savons déjà que la moyenne est la moyenne des données?

Le problème du livre de texte indique que provient de Ils vous disent que est connu, mais doit être estimé. $x_1,x_2,\dots,x_N$

x \sim \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}

$x\sim\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

σ

$\sigma$

μ

$\mu$

Est-il vraiment si évident qu'une bonne estimation ?! $\hat\mu=\bar x$

Ici, . $\bar x=\frac{1}{N}\sum_{i=1}^Nx_i$

Ce n'était pas évident pour moi, et j'ai été assez surpris de voir qu'il s'agit en fait d'une estimation MLE.

Considérez également ceci: que faire si était connu et inconnu? Dans ce cas, l'estimateur MLE est $\mu$ $\sigma$

{\hat{σ}}^{2} = \frac{1}{N} \sum_{i = 1}^{N} (x - \bar{x})^{2}

$\hat\sigma^2=\frac{1}{N}\sum_{i=1}^N(x-\bar x)^2$

Remarquez, comment cet estimateur n'est pas le même qu'un estimateur de variance d'échantillon! "Nous savons déjà" que la variance de l'échantillon n'est pas donnée par l'équation suivante?

s^{2} = \frac{1}{N - 1} \sum_{i} (x - \bar{x})^{2}

$s^2=\frac{1}{N-1}\sum_{i}(x-\bar x)^2$

— Aksakal
source

bête noire nitpicky: n'est pas la variance de l'échantillon, est.

s^{2}

$s^2$

{\hat{σ}}^{2}

$\hat \sigma^2$

— Cliff AB

@CliffAB Je pense qu'il ne manque pas de support pour appeler "la variance de l'échantillon". À titre d'exemple, la page wikipedia sur la correction de Bessel l' appelle ainsi. De nombreux livres font de même. Je préférerais me tourner vers votre terminologie moi-même, mais je pense qu'il est probablement trop fort de dire que n'est pas la variance de l'échantillon de nos jours - la terminologie est très répandue, probablement plus largement utilisée que d'appeler par ce nom

s_{N - 1}^{2}

$s^2_{N-1}$

s_{N - 1}^{2}

$s^2_{N-1}$

s_{N}^{2}

$s^2_N$

— Glen_b -Reinstate Monica

@Glen_b J'ai été amené à appeler la "variance de l'échantillon" (comme dans "la variance de l'échantillon, à part entière") et la "variance de la population (estimée)" (comme dans une estimation non biaisée , car comme le montre ce post, est également un estimateur utile). Mais j'ai pris un "sondage" (non aléatoire) de manuels et de manuels de calculatrice il y a quelques années et j'ai constaté que mon utilisation était fortement minoritaire, bien que j'aie trouvé de nombreux exemples des deux. Je ne sais pas si c'est une tendance. [De plus, les vieux et les sont parfois ambiguës et irritantes ... J'apprécie le et le !]

s_{N}^{2}

$s_N^2$

s_{N - 1}^{2}

$s_{N-1}^2$

s_{N}

$s_N$

s

$s$

\hat{σ}

$\hat \sigma$

N

$N$

N - 1

$N-1$

— Silverfish

@CliffAB, j'ai vu beaucoup utilisé en économétrie pour une variance d'échantillon, et pour un paramètre de population, par exemple dans Greene "Econometric Analysis".

s^{2}

$s^2$

σ^{2}

$\sigma^2$

— Aksakal

@CliffAB, je n'ai pas fait la terminologie, mais peut-être que la justification en économétrie était qu'il y a toujours plus d'un estimateur de n'importe quoi, y compris la variance. Donc, ne serait pas assez spécifique, il semblerait qu'il se réfère à n'importe quel nombre d'estimateur que l'on pourrait trouver, tandis que a une signification spécifique des écarts quadratiques moyens. Maintenant, dans le contexte OLS , où est le nombre de paramètres. Comme vous le voyez, ce n'est pas toujours , donc même cette notation n'est pas absolument spécifique, mais on suppose que nous ajustons le nombre de paramètres.

{\hat{σ}}^{2}

$\hat\sigma^2$

s^{2}

$s^2$

s^{2} = \frac{e^{'} e}{N - k}

$s^2=\frac{e'e}{N-k}$

k

$k$

N - 1

$N-1$

— Aksakal

Dans ce cas, la moyenne de votre échantillon est également l'estimateur du maximum de vraisemblance. Donc, faire tout le travail dérive du MLE ressemble à un exercice inutile, car vous revenez à votre estimation intuitive de la moyenne que vous auriez utilisée en premier lieu. Eh bien, ce n'était pas "juste par hasard"; ceci a été spécifiquement choisi pour montrer que les estimateurs MLE conduisent souvent à des estimateurs intuitifs.

Mais que faire s'il n'y avait pas d'estimateur intuitif? Par exemple, supposons que vous disposiez d'un échantillon de variables aléatoires gamma iid et que vous souhaitiez estimer la forme et les paramètres de débit. Vous pourriez peut-être essayer de raisonner un estimateur à partir des propriétés que vous connaissez des distributions gamma. Mais quelle serait la meilleure façon de procéder? En utilisant une combinaison de la moyenne et de la variance estimées? Pourquoi ne pas utiliser la médiane estimée au lieu de la moyenne? Ou le log-mean? Tout cela pourrait être utilisé pour créer une sorte d'estimateur, mais lequel sera le bon?

En fait, la théorie MLE nous donne un excellent moyen d'obtenir une réponse succincte à cette question: prendre les valeurs des paramètres qui maximisent la probabilité des données observées (ce qui semble assez intuitif) et l'utiliser comme estimation. En fait, nous avons une théorie qui stipule que dans certaines conditions, ce sera approximativement le meilleur estimateur. C'est beaucoup mieux que d'essayer de trouver un estimateur unique pour chaque type de données et de passer beaucoup de temps à s'inquiéter si c'est vraiment le meilleur choix.

En bref: bien que MLE ne fournisse pas de nouvelles informations dans le cas de l'estimation de la moyenne des données normales , il s'agit en général d'un outil très, très utile.

— Cliff AB
source

Il s'agit de confondre le vocabulaire, comme l'illustrent ces citations, directement de Google:

nom moyen : moyen; nom pluriel: moyennes

un nombre exprimant la valeur centrale ou typique dans un ensemble de données, en particulier le mode, la médiane ou (le plus souvent) la moyenne, qui est calculé en divisant la somme des valeurs de l'ensemble par leur nombre. "la proportion des plus de 60 ans est supérieure à la moyenne de l'UE de 19%" synonymes: moyenne, médiane, mode, point médian, centre

Pas la meilleure définition, je suis d'accord! Surtout en suggérant la signification comme synonyme. Je pense que la moyenne est la plus appropriée pour les jeux de données ou les échantillons comme dans et ne devrait pas être utilisée pour les distributions, comme dans . $\bar{x}$ $\mu$ $\mathfrak{N}(\mu,\sigma²)$

signifier

En mathématiques, la moyenne a plusieurs définitions différentes selon le contexte.

Dans les probabilités et les statistiques, moyenne et valeur attendue sont utilisées comme synonymes pour désigner une mesure de la tendance centrale soit d'une distribution de probabilité, soit de la variable aléatoire caractérisée par cette distribution. Dans le cas d'une distribution de probabilité discrète d'une variable aléatoire X, la moyenne est égale à la somme sur chaque valeur possible pondérée par la probabilité de cette valeur; c'est-à-dire qu'il est calculé en prenant le produit de chaque valeur possible x de X et sa probabilité P (x), puis en additionnant tous ces produits ensemble, donnant . $\mu = \sum x P(x)$

Pour un ensemble de données, les termes moyenne arithmétique, attente mathématique et parfois moyenne sont utilisés comme synonymes pour désigner une valeur centrale d'un ensemble discret de nombres: en particulier, la somme des valeurs divisée par le nombre de valeurs. La moyenne arithmétique d'un ensemble de nombres est généralement désignée par , prononcée "x bar". Si l'ensemble de données était basé sur une série d'observations obtenues par échantillonnage à partir d'une population statistique, la moyenne arithmétique est appelée la moyenne de l'échantillon (notée ) pour la distinguer de la moyenne de la population (notée ou ) . $x_1, x_2, ..., x_n$ $\bar{x}$ $\bar{x}$ $\mu$ $\mu_x$

Comme suggéré par cette entrée de Wikipedia , la moyenne s'applique à la fois aux distributions et aux échantillons ou ensembles de données. La moyenne d'un ensemble de données ou d'un échantillon est également la moyenne de la distribution empirique associée à cet échantillon. L'entrée illustre également la possibilité d'une confusion entre les termes car elle donne la moyenne et l'attente comme synonymes.

nom d' attente : attente; nom pluriel: attentes

Mathématiques: un autre terme pour la valeur attendue.

Je limiterais l'utilisation de l' attente à un objet obtenu par une intégrale, comme dans mais la moyenne d'un échantillon est encore une fois l'attente associée à la distribution empirique dérivée de cet échantillon.

E [X] = \int_{X} x d P (x)

$\mathbb{E}[X]=\int_\mathcal{X} x\text{d}P(x)$

— Xi'an
source