Que signifie l'erreur-type d'une estimation du maximum de vraisemblance?

Je suis mathématicien autodidacte en statistique et je lutte particulièrement avec la langue.

Dans le livre que j'utilise, il y a le problème suivant:

Une variable aléatoire est donnée sous la forme -distribuée avec . (Bien sûr, vous pouvez prendre n'importe quelle distribution en fonction d'un paramètre pour cette question.) Ensuite, un échantillon de cinq valeurs , , , , est donné. $X$ $\text{Pareto}(\alpha,60)$ $\alpha>0$ $14$ $21$ $6$ $32$ $2$

Première partie: "En utilisant la méthode du maximum de vraisemblance, trouvez une estimation de basée sur [l'échantillon]." Ce n'était pas un problème. La réponse est . $\hat{\alpha}$ $\alpha$ $\hat{\alpha}\approx 4.6931$

Mais ensuite: "Donnez une estimation de l'erreur type de ." $\hat{\alpha}$

Qu'entend-on par là? Étant donné que est juste un nombre réel fixe, je ne vois pas en quoi il pourrait avoir une erreur standard. Dois-je déterminer l'écart type de ? $\hat{\alpha}$ $\text{Pareto}(\hat{\alpha},60)$

Si vous pensez que la question n'est pas claire, ces informations m'aideraient également.

maximum-likelihood

— Stefan
source

Que signifie ?

60

$60$

— Alecos Papadopoulos

Avez-vous une formule pour ? Cela vous aidera à estimer son erreur standard.

\hat{α}

$\hat \alpha$

— soakley

@Glen_b Mais si c'était la limite inférieure, comment se pourrait-il que toutes les valeurs de l'échantillon réalisé soient plus petites?

— Alecos Papadopoulos

@Alecos C'est un excellent point. Mon commentaire n'a aucun sens; Je l'ai effacé.

— Glen_b -Reinstate Monica

@Alecos: est la distribution de densité .

Pareto (α, λ)

$\text{Pareto}(\alpha,\lambda)$

f (x) = \frac{α λ^{α}}{(λ + x)^{α + 1}}

$f(x)=\frac{\alpha\lambda^\alpha}{(\lambda+x)^{\alpha+1}}$

— Stefan

Réponses:

L'autre réponse a couvert la dérivation de l'erreur standard, je veux juste vous aider avec la notation:

Votre confusion est due au fait que dans Statistics, nous utilisons exactement le même symbole pour désigner l'estimateur (qui est une fonction) et une estimation spécifique (qui est la valeur que l'estimateur prend lorsqu'il reçoit en entrée un échantillon réalisé spécifique).

Donc et pour . Donc est une fonction de variables aléatoires et donc une variable aléatoire elle-même, qui a certainement une variance. $\hat \alpha = h(\mathbf X)$ $\hat \alpha(\mathbf X = \mathbf x) = 4.6931$ $\mathbf x = \{14,\,21,\,6,\,32,\,2\}$ $\hat \alpha(X)$

Dans l'estimation ML, dans de nombreux cas, ce que nous pouvons calculer est l' erreur standard asymptotique , car la distribution d'échantillons finis de l'estimateur n'est pas connue (ne peut pas être dérivée).

À proprement parler, n'a pas de distribution asymptotique, car il converge vers un nombre réel (le vrai nombre dans presque tous les cas d'estimation ML). Mais la quantité converge vers une variable aléatoire normale (par application du théorème de la limite centrale). $\hat \alpha$ $\sqrt n (\hat \alpha - \alpha)$

Un deuxième point de confusion de notation : la plupart, sinon tous les textes, écriront ("Avar" = variance asymptotique ") tandis que ce qu'ils signifient est , c'est-à-dire qu'ils se réfèrent à la variance asymptotique de la quantité , pas de ... Pour le cas d'une Pareto de base la distribution que nous avons $\text {Avar}(\hat \alpha)$ $\text {Avar}(\sqrt n (\hat \alpha - \alpha))$ $\sqrt n (\hat \alpha - \alpha)$ $\hat \alpha$

Avar [\sqrt{n} (\hat{α} - α)] = α^{2}

$\text {Avar}[\sqrt n (\hat \alpha - \alpha)] = \alpha^2$

et ainsi

Avar (\hat{α}) = α^{2} / n

$\text {Avar}(\hat \alpha ) = \alpha^2/n$

(mais ce que vous trouverez écrit est ) $\text {Avar}(\hat \alpha ) = \alpha^2$

Maintenant, dans quel sens l'estimateur a une "variance asymptotique", car comme dit, il converge asymptotiquement vers une constante? Eh bien, dans un sens approximatif et pour des échantillons volumineux mais finis . C'est-à-dire quelque part entre un "petit" échantillon, où l'estimateur est une variable aléatoire avec une distribution (généralement) inconnue, et un échantillon "infini", où l'estimateur est une constante, il y a ce "territoire d'échantillon grand mais fini" où l'estimateur n'est pas encore devenu une constante et où sa distribution et sa variance sont dérivées de manière détournée, en utilisant d'abord le théorème de la limite centrale pour dériver la distribution correctement asymptotique de la quantité $\hat \alpha$ $Z = \sqrt n (\hat \alpha - \alpha)$ (ce qui est normal en raison du CLT), puis inverser les choses et écrire (tout en prenant un pas en arrière et en traitant comme fini) qui montre tant que fonction affine de la variable aléatoire normale , et donc se distribue normalement (toujours approximativement). $\hat \alpha = \frac 1{\sqrt n} Z + \alpha$ $n$ $\hat \alpha$ $Z$

— Alecos Papadopoulos
source

+1 pour faire la distinction entre et - la notation peut certainement être incohérente.

\hat{α}

$\hat{\alpha}$

\sqrt{n} (\hat{α} - α)

$\sqrt{n}(\hat{\alpha} - \alpha)$

— Nate Pope

$\hat{\alpha}$ - un estimateur du maximum de vraisemblance - est une fonction d'un échantillon aléatoire, et est donc également aléatoire (non fixe). Une estimation de l'erreur type de pourrait être obtenue à partir des informations de Fisher, $\hat{\alpha}$

je (θ) = - E [\frac{\partial^{2} L (θ | Oui = y)}{\partial θ^{2}} |_{θ}]

$I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \mathcal{L}(\theta|Y = y)}{\partial \theta^2}|_\theta \right]$

Où est un paramètre et est la fonction log-vraisemblance de conditionnelle à un échantillon aléatoire . Intuitivement, les informations de Fisher indiquent la raideur de la courbure de la surface log-vraisemblable autour du MLE, et donc la quantité d '«informations» que fournit sur . $\theta$ $\mathcal{L}(\theta|Y = y)$ $\theta$ $y$ $y$ $\theta$

Pour une distribution avec une seule réalisation , la log-vraisemblance où est connue: $\mathrm{Pareto}(\alpha,y_0)$ $Y = y$ $y_0$

\begin{aligned} L (α | y, y_{0}) & = Journal α + α Journal y_{0} - (α + 1) Journal y \\ L^{'} (α | y, y_{0}) & = \frac{1}{α} + Journal y_{0} - Journal y \\ L^{″} (α | y, y_{0}) & = - \frac{1}{α^{2}} \end{aligned}

$\begin{aligned} \mathcal{L}(\alpha|y,y_0) &= \log \alpha + \alpha \log y_0 - (\alpha + 1) \log y \\ \mathcal{L}'(\alpha|y,y_0) &= \frac{1}{\alpha} + \log y_0 - \log y \\ \mathcal{L}''(\alpha|y,y_0) &= -\frac{1}{\alpha^2} \end{aligned}$ connectant à la définition des informations Fisher, Pour un échantillon L'estimateur du maximum de vraisemblance est asymptotiquement distribué comme: Où est la taille de l'échantillon. Parce que est inconnu, nous pouvons nous connecter

je (α) = \frac{1}{α^{2}}

$I(\alpha) = \frac{1}{\alpha^2}$

{y_{1}, y_{2}, . . ., y_{n}}

$\{y_1, y_2, ..., y_n\}$

\hat{α}

$\hat{\alpha}$

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n je (α)}) = N (α, \frac{α^{2}}{n}), \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) = \mathcal{N}(\alpha,\frac{\alpha^2}{n}),~ \end{aligned}$

n

$n$

α

$\alpha$

\hat{α}

$\hat{\alpha}$ pour obtenir une estimation de l'erreur standard:

S E (\hat{α}) \approx \sqrt{{\hat{α}}^{2} / n} \approx \sqrt{{4.6931}^{2} / 5} \approx 2.1

$\mathrm{SE}(\hat{\alpha}) \approx \sqrt{\hat{\alpha}^2/n} \approx \sqrt{4.6931^2/5} \approx 2.1$

— Nate Pope
source

Pour l'avant-dernière ligne, , il ne semble pas que la notation soit correcte. Si , alors ne peut pas apparaître sur le côté droit. Au lieu de cela, vous voulez

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) \end{aligned}$

n \to \infty

$n \to \infty$

n

$n$

\begin{aligned} \hat{α} \dot{\approx} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned}\hat{\alpha} \dot{\approx} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)})\end{aligned}$

— user321627