Sur l'existence de l'UMVUE et le choix de l'estimateur de dans la population

Soit soit un échantillon aléatoire tiré de population où . $(X_1,X_2,\cdots,X_n)$ $\mathcal N(\theta,\theta^2)$ $\theta\in\mathbb R$

Je recherche l'UMVUE de . $\theta$

La densité conjointe de est $(X_1,X_2,\cdots,X_n)$

\begin{aligned} f_{θ} (x_{1}, x_{2}, \dots, x_{n}) & = \prod_{i = 1}^{n} \frac{1}{θ \sqrt{2 π}} \exp [- \frac{1}{2 θ^{2}} (x_{i} - θ)^{2}] \\ = \frac{1}{(θ \sqrt{2 π})^{n}} \exp [- \frac{1}{2 θ^{2}} \sum_{i = 1}^{n} (x_{i} - θ)^{2}] \\ = \frac{1}{(θ \sqrt{2 π})^{n}} \exp [\frac{1}{θ} \sum_{i = 1}^{n} x_{i} - \frac{1}{2 θ^{2}} \sum_{i = 1}^{n} x_{i}^{2} - \frac{n}{2}] \\ = g (θ, T (x)) h (x) \forall (x_{1}, \dots, x_{n}) \in R^{n}, \forall θ \in R \end{aligned}

$\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align}$

, où $g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]$ et $h(\mathbf x)=1$ .

Ici, $g$ dépend de $\theta$ et de $x_1,\cdots,x_n$ à $T(\mathbf x)=\left(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2\right)$ et $h$ est indépendant de $\theta$ . Ainsi, selon le théorème de factorisation de Fisher-Neyman, la statistique bidimensionnelle $T(\mathbf X)=\left(\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2\right)$ est suffisante pour $\theta$ .

Cependant, $T$ n'est pas une statistique complète. En effet,

E_{θ} [2 {(\sum_{i = 1}^{n} X_{i})}^{2} - (n + 1) \sum_{i = 1}^{n} X_{i}^{2}] = 2 n (1 + n) θ^{2} - (n + 1) 2 n θ^{2} = 0 \forall θ

$E_{\theta}\left[2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2\right]=2n(1+n)\theta^2-(n+1)2n\theta^2=0\qquad\forall\,\theta$

et la fonction n'est pas identique à zéro. $g^*(T(\mathbf X))=2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2$

Mais je sais que est une statistique minimale suffisante. $T$

Je ne suis pas certain mais je pense qu'une statistique complète peut ne pas exister pour cette famille exponentielle courbe. Alors, comment dois-je obtenir l'UMVUE? S'il n'existe pas de statistique complète, un estimateur non biaisé (comme dans ce cas) qui est fonction d'une statistique minimale suffisante peut-il être l'UMVUE? (Fil associé: Quelle est la condition nécessaire pour qu'un estimateur sans biais soit UMVUE? ) $\bar X$

Et si je considère le meilleur estimateur linéaire sans biais (BLEU) de ? Le BLEU peut-il être l'UMVUE? $\theta$

Supposons que je considère l'estimateur linéaire sans biais de où et . Puisque nous savons que . Mon idée est de minimiser pour que soit le BLEU de . Would être alors le UMVUE de ? $T^*(\mathbf X)=a\bar X+(1-a)cS$ $\theta$ $c(n)=\sqrt{\frac{n-1}{2}}\frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}$ $S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2$ $E_{\theta}(cS)=\theta$ $\text{Var}(T^*)$ $T^*$ $\theta$ $T^*$ $\theta$

J'ai pris un estimateur linéaire sans biais basé sur et car est également suffisant pour . $\bar X$ $S$ $(\bar X,S^2)$ $\theta$

Éditer:

De nombreux travaux ont en effet été effectués dans l'estimation de dans la famille plus générale où est connu. Voici quelques-unes des références les plus pertinentes: $\theta$ $\mathcal N(\theta,a\theta^2)$ $a>0$

Estimation de la moyenne d'une distribution normale à coefficient de variation connu par Gleser / Healy.
Une note sur l'estimation de la moyenne d'une distribution normale avec un coefficient de variation connu par RA Khan.
Remarque sur l'estimation de la moyenne d'une distribution normale avec un coefficient de variation connu par RA Khan.
Extrait de ce chapitre.

J'ai trouvé la première de ces références dans cet exercice de l'inférence statistique de Casella / Berger:

Ma question ne concerne cependant pas cet exercice.

La note finale (l'extrait du chapitre) indique que l' UMVUE de n'existe pas $\theta$ car la statistique minimale suffisante n'est pas complète. Je voudrais savoir ce qui nous permet de conclure qu'un UMVUE n'existe pas simplement parce qu'une statistique complète suffisante ne peut pas être trouvée? Y a-t-il un résultat connexe à ce sujet? Je vois l'existence d'UMVUE même lorsque des statistiques complètes suffisantes n'existent pas dans le thread lié.

En supposant maintenant qu'il n'existe pas d'estimateur sans biais de variance minimale uniforme, quels devraient être nos prochains critères pour choisir le «meilleur» estimateur? Cherchons-nous le MSE minimum, la variance minimum ou le MLE? Ou le choix des critères dépendrait-il de notre objectif d'estimation?

Par exemple, supposons que j'ai un estimateur sans biais et un autre estimateur biaisé de . Supposons que le MSE de (qui est sa variance) soit supérieur à celui de . Étant donné que la minimisation de l'ESM signifie la minimisation du biais ainsi que de la variance simultanément, je pense devrait être un «meilleur» choix d'estimateur que bien que le premier soit biaisé. $T_1$ $T_2$ $\theta$ $T_1$ $T_2$ $T_2$ $T_1$

Les choix probables d'estimateurs de sont énumérés à la page 4 de la dernière note. $\theta$

L'extrait suivant est tiré de Theory of Point Estimation de Lehmann / Casella (deuxième édition, pages 87-88):

Il est très probable que j'ai tout mal compris, mais la dernière phrase dit-elle que sous certaines conditions, l'existence de statistiques complètes est nécessaire pour l'existence d'UMVUE? Si oui, est-ce le résultat que je devrais rechercher?

Ce dernier résultat dû à RR Bahadur qui est mentionné tout à la fin fait référence à cette note.

Après une recherche plus approfondie, j'ai trouvé un résultat indiquant que si la statistique minimale suffisante n'est pas complète, alors une statistique complète n'existe pas. Donc, au moins, je suis à peu près convaincu qu'une statistique complète n'existe pas ici.

Un autre résultat que j'ai oublié de considérer est celui qui dit grosso modo qu'une condition nécessaire et suffisante pour qu'un estimateur sans biais soit l'UMVUE est qu'il doit être non corrélé avec chaque estimateur sans biais de zéro. J'ai essayé d'utiliser ce théorème pour montrer qu'un UMVUE n'existe pas ici, et aussi le fait qu'un estimateur sans biais comme n'est pas l'UMVUE. Mais cela ne fonctionne pas aussi simple que cela, par exemple ici , dans l'illustration finale. $\bar X$

— TêtuAtom
source

Mettre à jour:

Considérons l'estimateur où est donné dans votre message. Il s'agit d'un estimateur non biaisé de et sera clairement corrélé avec l'estimateur donné ci-dessous (pour toute valeur de ).

\hat{0} = \bar{X} - c S

$\hat 0 = \bar{X} - cS$

c

$c$

0

$0$

a

$a$

Le théorème 6.2.25 de C&B montre comment trouver des statistiques suffisantes complètes pour la famille exponentielle tant que contient un ensemble ouvert dans . Malheureusement cette distribution donne et qui ne forme PAS un ensemble ouvert dans (puisque ). C'est pour cette raison que la statistique n'est pas complète pour , et c'est pour la même raison que l'on peut construire un estimateur sans biais de qui sera corrélée avec tout estimateur non biaisé de

{(w_{1} (θ), \dots w_{k} (θ)}

$\{(w_1(\theta), \cdots w_k(\theta)\}$

R^{k}

$\mathbb R^k$

w_{1} (θ) = θ^{- 2}

$w_1(\theta) = \theta^{-2}$

w_{2} (θ) = θ^{- 1}

$w_2(\theta) = \theta^{-1}$

R^{2}

$R^2$

w_{1} (θ) = w_{2} (θ)^{2}

$w_1(\theta) = w_2(\theta)^2$

(\bar{X}, S^{2})

$(\bar{X}, S^2)$

θ

$\theta$

0

$0$

θ

$\theta$ basé sur des statistiques suffisantes.

Une autre mise à jour:

À partir de là, l'argument est constructif. Il doit y avoir un autre estimateur non biaisé tel que pour au moins un . $\tilde\theta$ $Var(\tilde\theta) < Var(\hat\theta)$ $\theta \in \Theta$

Preuve: Supposons que , et (pour une valeur de ). Considérons un nouvel estimateur Cet estimateur est clairement sans biais avec la variance Soit . $E(\hat\theta) = \theta$ $E(\hat 0) = 0$ $Cov(\hat\theta, \hat 0) < 0$ $\theta$

\tilde{θ} = \hat{θ} + b \hat{0}

$\tilde\theta = \hat\theta + b\hat0$

V a r (\tilde{θ}) = V a r (\hat{θ}) + b^{2} V a r (\hat{0}) + 2 b C o v (\hat{θ}, \hat{0})

$Var(\tilde\theta) = Var(\hat\theta) + b^2Var(\hat0) + 2bCov(\hat\theta,\hat0)$

M (θ) = \frac{- 2 C o v (\hat{θ}, \hat{0})}{V a r (\hat{0})}

$M(\theta) = \frac{-2Cov(\hat\theta, \hat0)}{Var(\hat0)}$

Par hypothèse, il doit exister un tel que . Si nous choisissons , alors à . Par conséquent, ne peut pas être l'UMVUE. $\theta_0$ $M(\theta_0) > 0$ $b \in (0, M(\theta_0))$ $Var(\tilde\theta) < Var(\hat\theta)$ $\theta_0$ $\hat\theta$ $\quad \square$

En résumé: le fait que soit corrélé avec (pour tout choix de ) implique que nous pouvons construire un nouvel estimateur qui soit meilleur que pour au moins un point , violant l'uniformité de revendique la meilleure impartialité. $\hat\theta$ $\hat0$ $a$ $\hat\theta$ $\theta_0$ $\hat\theta$

Examinons de plus près votre idée des combinaisons linéaires.

\hat{θ} = a \bar{X} + (1 - a) c S

$\hat\theta = a \bar X + (1-a)cS$

Comme vous le faites remarquer, est un estimateur raisonnable car il est basé sur des statistiques suffisantes (bien que incomplètes). De toute évidence, cet estimateur est sans biais, donc pour calculer le MSE, nous devons seulement calculer la variance. $\hat\theta$

\begin{aligned} M S E (\hat{θ}) & = a^{2} V a r (\bar{X}) + (1 - a)^{2} c^{2} V a r (S) \\ = \frac{a^{2} θ^{2}}{n} + (1 - a)^{2} c^{2} [E (S^{2}) - E (S)^{2}] \\ = \frac{a^{2} θ^{2}}{n} + (1 - a)^{2} c^{2} [θ^{2} - θ^{2} / c^{2}] \\ = θ^{2} [\frac{a^{2}}{n} + (1 - a)^{2} (c^{2} - 1)] \end{aligned}

$\begin{align*} MSE(\hat\theta) &= a^2 Var(\bar{X}) + (1-a)^2 c^2 Var(S) \\ &= \frac{a^2\theta^2}{n} + (1-a)^2 c^2 \left[E(S^2) - E(S)^2\right] \\ &= \frac{a^2\theta^2}{n} + (1-a)^2 c^2 \left[\theta^2 - \theta^2/c^2\right] \\ &= \theta^2\left[\frac{a^2}{n} + (1-a)^2(c^2 - 1)\right] \end{align*}$

En différenciant, nous pouvons trouver le «optimal » pour une taille d'échantillon donnée . $a$ $n$

a_{o p t} (n) = \frac{c^{2} - 1}{1 / n + c^{2} - 1}

$a_{opt}(n) = \frac{c^2 - 1}{1/n + c^2 - 1}$ où

c^{2} = \frac{n - 1}{2} {(\frac{Γ ((n - 1) / 2)}{Γ (n / 2)})}^{2}

$c^2 = \frac{n-1}{2}\left(\frac{\Gamma((n-1)/2)}{\Gamma(n/2)}\right)^2$

Un tracé de ce choix optimal de est donné ci-dessous. $a$

Il est quelque peu intéressant de noter qu'en tant que , nous avons (confirmé via Wolframalpha). $n\rightarrow \infty$ $a_{opt}\rightarrow \frac{1}{3}$

Bien qu'il n'y ait aucune garantie qu'il s'agit de l'UMVUE, cet estimateur est l'estimateur de variance minimale de toutes les combinaisons linéaires non biaisées des statistiques suffisantes.

— knrumsey
source

Merci pour la mise à jour. Je n'ai pas suivi C&B comme un manuel, j'ai seulement regardé les exercices.

— StubbornAtom

@StubbornAtom J'ai ajouté une preuve démontrant pourquoi ne peut pas être UMVUE (emprunté fortement à C&B page 344). Jetez un coup d'œil et faites-moi savoir si cela aide du tout.

\hat{θ}

$\hat\theta$

— knrumsey