Quelle est l'intuition derrière la définition de l'exhaustivité d'une statistique comme étant impossible de former un estimateur sans biais de

21

Dans les statistiques classiques, il existe une définition selon laquelle une statistique $T$ d'un ensemble de données $y_1, \ldots, y_n$ est définie pour être complète pour un paramètre $\theta$ il est impossible de former un estimateur sans biais de $0$ partir de celui-ci de manière non triviale. Autrement dit, la seule façon d'avoir $E h(T (y )) = 0$ pour tout $\theta$ est d'avoir $h$ être $0$ presque sûrement.

Y a-t-il une intuition derrière cela? Cela semble être une façon plutôt mécanique de définir cela, je sais que cela a déjà été demandé, mais je me demandais s'il y avait une intuition très facile à comprendre qui permettrait aux étudiants d'introduction d'avoir plus de facilité à digérer le matériel.

— user1398057
source

2

C'est une très bonne question, j'ai dû creuser moi-même. Il s'avère que la raison pour laquelle il s'agit d'une telle définition mécanique et ne semble pas intuitivement significative pour un praticien standard comme moi est qu'elle est principalement utilisée pour prouver les contributions fondamentales en statistique mathématique. En particulier, ma courte recherche a révélé que le théorème de Lehmann-Scheffé et le théorème de Basu nécessitent l' exhaustivité d'une statistique pour être valables. Ce sont des contributions du milieu des années 1950. Je ne peux pas vous offrir une explication intuitive - mais si vous voulez vraiment en construire une, peut-être les preuves associées

— Jeremias K

18

Je vais essayer d'ajouter à l'autre réponse. Tout d'abord, l'exhaustivité est une condition technique qui est principalement justifiée par les théorèmes qui l'utilisent. Commençons donc par quelques concepts et théorèmes connexes où ils se produisent.

Soit $X=(X_1,X_2,\dotsc,X_n)$ représente un vecteur de données iid, que nous modélisons comme ayant une distribution $f(x;\theta), \theta \in \Theta$ où le paramètre $\theta$ régissant les données est inconnu. $T=T(X)$ est suffisant si la distribution conditionnelle de $X \mid T$ ne dépend pas du paramètre $\theta$ . $V=V(X)$ estaccessoiresi la distribution de $V$ ne dépend pas de $\theta$ (au sein de la famille $f(x;\theta)$ ). $U=U(X)$ est unestimateur sans biais de zérosi son espérance est nulle, indépendamment de $\theta$ . $S=S(X)$ est unestatistique complètesi tout estimateur sans biais de zéro basé sur $S$ est identique à zéro, c'est-à-dire si $\DeclareMathOperator{\E}{\mathbb{E}} \E g(S)=0 (\text{for all $\theta$})$ puis $g(S)=0$ ae (pour tout $\theta$ ).

Supposons maintenant que vous ayez deux estimateurs différents sans biais de $\theta$ basés sur la statistique $T$ , $g_1(T), g_2(T)$ suffisante . Autrement dit, dans les symboles

E g_{1} (T) = θ, E g_{2} (T) = θ

$\E g_1(T)=\theta ,\\ \E g_2(T)=\theta$ et

P (g_{1} (T) \neq g_{2} (T)) > 0

$\DeclareMathOperator{\P}{\mathbb{P}} \P(g_1(T) \not= g_2(T) ) > 0$ (pour tout

θ

$\theta$ ). Alors

g_{1} (T) - g_{2} (T)

$g_1(T)-g_2(T)$ est un estimateur sans biais de zéro, qui n'est pas identique à zéro, prouvant que

T

$T$ n'est pas complet. Ainsi, l'exhaustivité d'une statistique

T

$T$ suffisantenous donne qu'il n'existe qu'un seul estimateur sans biais unique de

θ

$\theta$ based on

T

$T$ . That is already very close to the Lehmann–Scheffé theorem.

Regardons quelques exemples. Supposons que $X_1, \dotsc, X_n$ sont maintenant iid uniformes sur l'intervalle $(\theta, \theta+1)$ . Nous pouvons montrer que ( $X_{(1)} < X_{(2)} < \dotsm < X_{(n)}$ est la statistique d'ordre) la paire $(X_{(1)}, X_{(n)})$ est suffisante, mais elle n'est pas complète, car la différence $X_{(n)}-X_{(1)}$ est accessoire, nous pouvons calculer son espérance, que ce soit $c$ (qui est fonction de $n$ seulement), puis $X_{(n)}-X_{(1)} -c$ sera un estimateur sans biais de zéro qui n'est pas identique à zéro. Donc, notre statistique suffisante, dans ce cas, n'est pas complète et suffisante. Et nous pouvons voir ce que cela signifie: il existe des fonctions de la statistique suffisante qui ne sont pas informatives sur $\theta$ (dans le cadre du modèle). Cela ne peut pas se produire avec une statistique suffisamment complète; elle est en un sens au maximum informative, en ce sens qu'aucune de ses fonctions n'est informative. D'un autre côté, s'il existe une fonction de la statistique minimale suffisante qui a une attente zéro, qui pourrait être considérée comme un terme de bruit , les termes de perturbation / bruit dans les modèles ont une attente zéro. On pourrait donc dire que des statistiques suffisantes non complètes contiennent du bruit .

Look again at the range $R=X_{(n)}-X_{(1)}$ in this example. Since its distribution does not depend on $\theta$ , it doesn't by itself alone contain any information about $\theta$ . But, together with the sufficient statistic, it does! How? Look at the case where $R=1$ is observed.Then, in the context of our (known to be true) model, we have perfect knowledge of $\theta$ ! Namely, we can say with certainty that $\theta = X_{(1)}$ . You can check that any other value for $\theta$ then leads to either $X_{(1)}$ or $X_{(n)}$ being an impossible observation, under the assumed model. On the other hand, if we observe $R=0.1$ , then the range of possible values for $\theta$ is rather large (exercise ...).

In this sense, the ancillary statistic $R$ does contain some information about the precision with which we can estimate $\theta$ based on this data and model. In this example, and others, the ancillary statistic $R$ "takes over the role of the sample size". Usually, confidence intervals and such needs the sample size $n$ , but in this example, we can make a conditional confidence interval this is computed using only $R$ , not $n$ (exercise.) This was an idea of Fisher, that inference should be conditional on some ancillary statistic.

Maintenant, le théorème de Basu: Si $T$ est suffisamment complet, alors il est indépendant de toute statistique auxiliaire. Autrement dit, l'inférence basée sur une statistique complète suffisante est plus simple, en ce sens que nous n'avons pas besoin de considérer l'inférence conditionnelle. Le conditionnement sur une statistique indépendante de $T$ ne change rien, bien sûr.

Ensuite, un dernier exemple pour donner un peu plus d'intuition. Changez notre exemple de distribution uniforme en une distribution uniforme sur l'intervalle $(\theta_1, \theta_2)$ (avec $\theta_1<\theta_2$ ). Dans ce cas, la statistique $(X_{(1)}, X_{(n)})$ est complète et suffisante. Qu'est ce qui a changé? Nous pouvons voir que l'exhaustivité est vraiment une propriété du modèle. Dans le premier cas, nous avions un espace de paramètres restreint. Cette restriction a détruit l'intégralité en introduisant des relations dans les statistiques de commande. En supprimant cette restriction, nous avons obtenu l'exhaustivité! Donc, dans un sens, le manque d'exhaustivité signifie que l'espace des paramètres n'est pas assez grand, et en l'agrandissant, nous pouvons espérer restaurer l'intégralité (et donc une inférence plus facile).

Quelques autres exemples où le manque d'exhaustivité est causé par des restrictions sur l'espace des paramètres,

voir ma réponse à: Quel genre d'information est l'information de Fisher?
Soit $X_1, \dotsc, X_n$ iid $\mathcal{Cauchy}(\theta,\sigma)$ (un modèle à l'échelle de l'emplacement). Ensuite, les statistiques de commande sont suffisantes mais pas complètes. Mais maintenant agrandir ce modèle à un modèle entièrement non paramétrique, encore IID , mais d' une certaine répartition complètement non spécifiée $F$ . Ensuite, les statistiques de commande sont suffisantes et complètes.
Pour les familles exponentielles avec un espace de paramètres canonique (c'est-à-dire aussi grand que possible), la statistique minimale suffisante est également complète. Mais dans de nombreux cas, l'introduction de restrictions sur l'espace des paramètres, comme pour les familles exponentielles courbes , détruit l'intégralité.

A very relevant paper is An Interpretation of Completeness and Basu's Theorem.

— kjetil b halvorsen
source

7

Some intuition may be available from the theory of best (minimum variance) unbiased estimators.

If $E_\theta W=\tau(\theta)$ then $W$ is a best unbiased estimator of $\tau(\theta)$ iff $W$ is uncorrelated with all unbiased estimators of zero.

Proof: Let $W$ be an unbiased estimator uncorrelated with all unbiased estimators of zero. Let $W'$ be another estimator such that $E_\theta W'=E_\theta W=\tau(\theta)$ . Write $W'=W+(W'-W)$ . By assumption, $Var_\theta W'=Var_\theta W+Var_\theta (W'-W)$ . Hence, for any $W'$ , $Var_\theta W'\geq Var_\theta W$ .

Now assume that $W$ is a best unbiased estimator. Let there be some other estimator $U$ with $E_\theta U=0$ . $\phi_a:=W+aU$ is also unbiased for $\tau(\theta)$ . We have

V a r_{θ} ϕ_{a} := V a r_{θ} W + 2 a C o v_{θ} (W, U) + a^{2} V a r_{θ} U .

$Var_\theta \phi_a:=Var_\theta W+2aCov_\theta(W,U)+a^2Var_\theta U.$ If there were a

θ_{0} \in Θ

$\theta_0\in\Theta$ such that

C o v_{θ_{0}} (W, U) < 0

$Cov_{\theta_0}(W,U)<0$ , we would obtain

V a r_{θ} ϕ_{a} < V a r_{θ} W

$Var_\theta \phi_a<Var_\theta W$ for

a \in (0, - 2 C o v_{θ_{0}} (W, U) / V a r_{θ_{0}} U)

$a\in(0,-2Cov_{\theta_0}(W,U)/Var_{\theta_0} U)$ .

W

$W$ could then not be the best unbiased estimator. QED

Intuitively, the result says that if an estimator is optimal, it must not be possible to improve it by just adding some noise to it, in the sense of combining it with an estimator that is just zero on average (being an unbiased estimator of zero).

Unfortunately, it is difficult to characterize all unbiased estimators of zero. The situation becomes much simpler if zero itself is the only unbiased estimator of zero, as any statistic $W$ satisfies $Cov_\theta(W,0)=0$ . Completeness describes such a situation.

— Christoph Hanck
source