Comment l'estimation du maximum de vraisemblance a-t-elle une distribution normale approximative?

J'ai lu sur MLE comme méthode de génération d'une distribution ajustée.

Je suis tombé sur une déclaration disant que les estimations du maximum de vraisemblance "ont des distributions normales approximatives".

Est-ce à dire que si j'applique des temps MLE répétés sur mes données et la famille de distributions que j'essaie d'adapter, les modèles que je reçois seront normalement distribués? Comment exactement une séquence de distributions a-t-elle une distribution?

normal-distribution estimation maximum-likelihood

— Matt O'Brien
source

Lorsque vous appliquez MLE à plusieurs reprises à vos données, vous obtiendrez à chaque fois exactement les mêmes résultats, sauf erreur de calcul . La manière d'y penser est plutôt de réfléchir à la manière dont vos données auraient pu se révéler différemment. Lorsque les données varient, il en va de même des estimations ML basées sur elles et c'est cette variation résultante des estimations qui est d'un grand intérêt.

— whuber

ahh oui ... je ne pensais pas à la taille de l'échantillon ...

— Matt O'Brien

Jetez un œil à la discussion ici: andrewgelman.com/2012/07/05/…

— kjetil b halvorsen

Les estimateurs sont des statistiques et les statistiques ont des distributions d'échantillonnage (c'est-à-dire que nous parlons de la situation où vous continuez à prélever des échantillons de la même taille et à regarder la distribution des estimations que vous obtenez, une pour chaque échantillon).

La citation fait référence à la distribution des MLE lorsque la taille des échantillons approche de l'infini.

Considérons donc un exemple explicite, le paramètre d'une distribution exponentielle (en utilisant le paramétrage d'échelle, pas le paramétrage de taux).

F (X; μ) = \frac{_{1}}{^{μ}} e^{- \frac{X}{μ}}; X > 0, μ > 0

$f(x;\mu) = \frac{_1}{^\mu} e^{-\frac{x}{\mu}};\quad x>0,\quad \mu>0$

Dans ce cas, . Le théorème nous donne qu'à mesure que la taille de l'échantillon devient de plus en plus grande, la distribution de (une norme appropriée) (sur des données exponentielles) deviendra plus normale. $\hat \mu = \bar x$ $n$ $\bar X$

entrez la description de l'image ici

Si nous prenons des échantillons répétés, chacun de taille 1, la densité résultante de la moyenne de l'échantillon est donnée dans le graphique en haut à gauche. Si nous prenons des échantillons répétés, chacun de taille 2, la densité résultante de la moyenne de l'échantillon est donnée dans le graphique en haut à droite; au moment où n = 25, en bas à droite, la distribution des moyennes des échantillons a déjà commencé à paraître beaucoup plus normale.

(Dans ce cas, nous prévoyons déjà que c'est le cas à cause du CLT. Mais la distribution de doit également s'approcher de la normalité car elle est ML pour le paramètre de taux ... et vous ne pouvez pas obtenir cela du CLT - du moins pas directement * - car nous ne parlons plus de moyens standardisés, ce qui est le CLT) $1/\bar X$ $\lambda=1/\mu$

Considérons maintenant le paramètre de forme d'une distribution gamma avec ~~une~~ moyenne d' ~~échelle~~ connue (ici en utilisant une paramétrisation de la moyenne et de la forme plutôt que de l'échelle et de la forme).

L'estimateur n'est pas de forme fermée dans ce cas, et le CLT ne s'applique pas (encore une fois, du moins pas directement *), mais néanmoins l'argmax de la fonction de vraisemblance est MLE. À mesure que vous prenez des échantillons de plus en plus grands, la distribution d'échantillonnage de l'estimation du paramètre de forme devient plus normale.

entrez la description de l'image ici

Ce sont des estimations de la densité du noyau à partir de 10000 ensembles d'estimations ML du paramètre de forme d'un gamma (2,2), pour les tailles d'échantillon indiquées (les deux premiers ensembles de résultats étaient extrêmement lourds; ils ont été quelque peu tronqués pour que vous peut voir la forme près du mode). Dans ce cas, la forme près du mode ne change que lentement jusqu'à présent - mais la queue extrême s'est raccourcie de manière assez spectaculaire. Cela peut prendre un de plusieurs centaines pour commencer à paraître normal. $n$

* Comme mentionné, le CLT ne s'applique pas directement (clairement, puisque nous ne traitons pas en général des moyens). Vous pouvez cependant créer un argument asymptotique dans lequel vous développez quelque chose dans dans une série, créez un argument approprié relatif à des termes d'ordre supérieur et invoquez une forme de CLT pour obtenir cette version standardisée de approche de la normalité (dans des conditions appropriées ...). $\hat{\theta}$ $\hat{\theta}$

Notez également que l'effet que nous voyons lorsque nous examinons de petits échantillons (petits par rapport à l'infini, au moins) - cette progression régulière vers la normalité dans une variété de situations, comme nous le voyons motivé par les graphiques ci-dessus - suggérerait que si nous avons considéré le cdf d'une statistique standardisée, il peut y avoir une version de quelque chose comme une inégalité de Berry Esseen basée sur une approche similaire à la façon d'utiliser un argument CLT avec des MLE qui fournirait des limites sur la vitesse à laquelle la distribution d'échantillonnage peut approcher la normalité. Je n'ai pas vu quelque chose comme ça, mais cela ne m'étonnerait pas de constater que cela avait été fait.

— Glen_b -Reinstate Monica
source