Je vais essayer d'ajouter à l'autre réponse. Tout d'abord, l'exhaustivité est une condition technique qui est principalement justifiée par les théorèmes qui l'utilisent. Commençons donc par quelques concepts et théorèmes connexes où ils se produisent.
Soit X=(X1,X2,…,Xn) représente un vecteur de données iid, que nous modélisons comme ayant une distribution f(x;θ),θ∈Θ où le paramètre θ régissant les données est inconnu. T=T(X) est suffisant si la distribution conditionnelle de X∣T ne dépend pas du paramètre θ . V=V(X) estaccessoiresi la distribution deV ne dépend pas deθ (au sein de la famillef(x;θ) ). U=U(X) est unestimateur sans biais de zérosi son espérance est nulle, indépendamment deθ . S=S(X) est unestatistique complètesi tout estimateur sans biais de zéro basé surS est identique à zéro, c'est-à-dire siEg(S)=0(for all θ) puisg(S)=0 ae (pour toutθ ).
Supposons maintenant que vous ayez deux estimateurs différents sans biais de θ basés sur la statistique T , g1(T),g2(T) suffisante . Autrement dit, dans les symboles
Eg1(T)=θ,Eg2(T)=θ
etP(g1(T)≠g2(T))>0(pour toutθ). Alorsg1(T)−g2(T)est un estimateur sans biais de zéro, qui n'est pas identique à zéro, prouvant queTn'est pas complet. Ainsi, l'exhaustivité d'une statistiqueTsuffisantenous donne qu'il n'existe qu'un seul estimateur sans biais unique deθ based on T. That is already very close to the Lehmann–Scheffé theorem.
Regardons quelques exemples. Supposons que X1,…,Xn sont maintenant iid uniformes sur l'intervalle (θ,θ+1) . Nous pouvons montrer que ( X(1)<X(2)<⋯<X(n) est la statistique d'ordre) la paire (X(1),X(n)) est suffisante, mais elle n'est pas complète, car la différence X(n)−X(1) est accessoire, nous pouvons calculer son espérance, que ce soitc(qui est fonction denseulement), puisX(n)−X(1)−csera un estimateur sans biais de zéro qui n'est pas identique à zéro. Donc, notre statistique suffisante, dans ce cas, n'est pas complète et suffisante. Et nous pouvons voir ce que cela signifie: il existe des fonctions de la statistique suffisante qui ne sont pas informatives surθ(dans le cadre du modèle). Cela ne peut pas se produire avec une statistique suffisamment complète; elle est en un sens au maximum informative, en ce sens qu'aucune de ses fonctions n'est informative. D'un autre côté, s'il existe une fonction de la statistique minimale suffisante qui a une attente zéro, qui pourrait être considérée comme un terme de bruit , les termes de perturbation / bruit dans les modèles ont une attente zéro. On pourrait donc dire que des statistiques suffisantes non complètes contiennent du bruit .
Look again at the range R=X(n)−X(1) in this example. Since its distribution does not depend on θ, it doesn't by itself alone contain any information about θ. But, together with the sufficient statistic, it does! How? Look at the case where R=1 is observed.Then, in the context of our (known to be true) model, we have perfect knowledge of θ! Namely, we can say with certainty that θ=X(1). You can check that any other value for θ then leads to either X(1) or X(n) being an impossible observation, under the assumed model. On the other hand, if we observe R=0.1, then the range of possible values for θ is rather large (exercise ...).
In this sense, the ancillary statistic R does contain some information about the precision with which we can estimate θ based on this data and model. In this example, and others, the ancillary statistic R "takes over the role of the sample size". Usually, confidence intervals and such needs the sample size n, but in this example, we can make a conditional confidence interval this is computed using only R, not n (exercise.)
This was an idea of Fisher, that inference should be conditional on some ancillary statistic.
Maintenant, le théorème de Basu: Si T est suffisamment complet, alors il est indépendant de toute statistique auxiliaire. Autrement dit, l'inférence basée sur une statistique complète suffisante est plus simple, en ce sens que nous n'avons pas besoin de considérer l'inférence conditionnelle. Le conditionnement sur une statistique indépendante de T ne change rien, bien sûr.
Ensuite, un dernier exemple pour donner un peu plus d'intuition. Changez notre exemple de distribution uniforme en une distribution uniforme sur l'intervalle (θ1,θ2) (avec θ1<θ2 ). Dans ce cas, la statistique (X(1),X(n)) est complète et suffisante. Qu'est ce qui a changé? Nous pouvons voir que l'exhaustivité est vraiment une propriété du modèle. Dans le premier cas, nous avions un espace de paramètres restreint. Cette restriction a détruit l'intégralité en introduisant des relations dans les statistiques de commande. En supprimant cette restriction, nous avons obtenu l'exhaustivité! Donc, dans un sens, le manque d'exhaustivité signifie que l'espace des paramètres n'est pas assez grand, et en l'agrandissant, nous pouvons espérer restaurer l'intégralité (et donc une inférence plus facile).
Quelques autres exemples où le manque d'exhaustivité est causé par des restrictions sur l'espace des paramètres,
voir ma réponse à: Quel genre d'information est l'information de Fisher?
Soit X1,…,Xn iid Cauchy(θ,σ) (un modèle à l'échelle de l'emplacement). Ensuite, les statistiques de commande sont suffisantes mais pas complètes. Mais maintenant agrandir ce modèle à un modèle entièrement non paramétrique, encore IID , mais d' une certaine répartition complètement non spécifiée F . Ensuite, les statistiques de commande sont suffisantes et complètes.
Pour les familles exponentielles avec un espace de paramètres canonique (c'est-à-dire aussi grand que possible), la statistique minimale suffisante est également complète. Mais dans de nombreux cas, l'introduction de restrictions sur l'espace des paramètres, comme pour les familles exponentielles courbes , détruit l'intégralité.
A very relevant paper is An Interpretation of Completeness and
Basu's Theorem.