L'intuition derrière le paradoxe de Stein ne s'applique que dans les dimensions


46

L'exemple de Stein montre que l'estimation du maximum de vraisemblance de variables normalement distribuées avec les moyennes et les variances est inadmissible (sous une fonction de perte au carré) si et si . Pour une preuve plus nette, voir le premier chapitre de Inférence à grande échelle: méthodes empiriques bayésiennes d’estimation, de test et de prévision par Bradley Effron.μ 1 , , μ n 1 n 3nμ1,,μn1n3

C’était très surprenant pour moi au début, mais il ya une certaine intuition derrière pourquoi on peut s’attendre à ce que l’estimation standard soit inadmissible (notamment si , alors , comme indiqué dans l'article original de Stein, lié à ci-dessous).xN(μ,1)Ex2μ2+n

Ma question est plutôt la suivante: quelle propriété de l'espace n dimensionnel (pour n3 ) manque- t-elle de R2 ce qui facilite l'exemple de Stein? Les réponses possibles pourraient concerner la courbure de la sphère n ou quelque chose de complètement différent.

En d'autres termes, pourquoi le MLE est-il admissible dans R2 ?


Edit 1: En réponse à @mpiktas, vous vous inquiétez de 1.31 à partir de 1.30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
donc
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
Nous avons donc:

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Edit 2 : Dans cet article , Stein prouve que le MLE est admissible pour N=2 .


4
@mpiktas Ce n'est pas aussi inapplicable qu'il en a l'air. La situation est similaire à une ANOVA après application d'une réduction de suffisance. Ceci suggère que les estimations d'ANOVA habituelles des moyennes de groupe sont inadmissibles à condition que nous essayions d'estimer les moyennes de plus de 3 groupes (ce qui s'avère être vrai). Je recommanderais d'examiner les preuves que le MLE est admissible pour et de voir où elles échouent en essayant d'étendre à plutôt que de simplement regarder les preuves que l'estimateur de Stein fait ce qu'il prétend faire, ce qui est facile une fois vous avez réellement à l'esprit l'estimateur. N=1,2N=3
mec

2
... et savoir utiliser le lemme de Stein. Je suppose que c'est en fait un peu moins simple que je ne le pensais il y a 6 minutes.
mec

2
Je suis d'accord. Avez-vous de bonnes références pour cela (mis à part le document original). J'ai trouvé le document original de Stein trop computationnel et espérais que quelqu'un aurait mis au point une méthode différente au cours des cinquante dernières années.
Har

2
La preuve qui m'a été enseignée est celle de Brown et Hwang de 1983 qui utilise une méthode suggérée par Blyth au début des années 1950, je crois. C'est assez général (plus général que le résultat de Stein en ce sens que cela fonctionne pour la famille exponentielle) et, je crois, assez différent de Stein. Mais ce n'est pas anodin.
mec

2
@Har bonne question! (+1)
suncoolsu

Réponses:


43

La dichotomie entre les cas et pour l'admissibilité de la MLE de la moyenne d'une variable aléatoire normale multivariée à dimensions est certainement choquante.d<3d3d

Il existe un autre exemple très célèbre de probabilités et de statistiques dans lequel il existe une dichotomie entre les cas et . C’est la récurrence d’une simple marche aléatoire sur le réseau . C'est-à-dire que la marche aléatoire simple de dimension est récurrente dans 1 ou 2 dimensions, mais est transitoire dans dimensions. L'analogue en temps continu (sous la forme d'un mouvement brownien) est également valable.d<3d3Zddd3

Il s'avère que les deux sont étroitement liés.

Larry Brown a prouvé que les deux questions sont essentiellement équivalentes. C'est-à-dire que le meilleur estimateur invariant d'un vecteur moyen normal multidimensionnel à dimensions est admissible si et seulement si le mouvement brownien à dimensions est récurrent.μ^μ^(X)=Xdd

En fait, ses résultats vont beaucoup plus loin. Pour tout sensible (c. -à- Bayes généralisée) estimateur avec bornée (généralisée) risque, il est explicite (!) Correspondant la diffusion de dimension telle que la estimateur est admissible si et seulement si sa diffusion correspondante est récurrente.μ~μ~(X)L2dμ~

La moyenne locale de cette diffusion est essentiellement la différence entre les deux estimateurs, à savoir, et la covariance de la diffusion est . De ce fait , il est facile de voir que , pour le cas du MLE , nous récupérons (rééchelonné) mouvement brownien.μ~μ^2Iμ~=μ^=X

Ainsi, dans un certain sens, nous pouvons examiner la question de la recevabilité à travers l’optique des processus stochastiques et utiliser des propriétés de diffusion bien étudiées pour parvenir aux conclusions souhaitées.

Références

  1. L. Brown (1971). Estimateurs admissibles, diffusions récurrentes et problèmes insolubles des valeurs limites . Ann. Math. Stat. , vol. 42, non. 3, pages 855 à 903.
  2. RN Bhattacharya (1978). Critères de récurrence et existence de mesures invariantes pour les diffusions multidimensionnelles . Ann. Prob. , vol. 6, non. 4, 541–553.

2
En fait, quelque chose comme ceci est ce que j'espérais. Une connexion à un autre domaine des mathématiques (que ce soit la géométrie différentielle ou les processus stochastiques) qui montre que l'admissibilité de n'était pas un simple hasard. Très bonne réponse! n=2
Har le

Inspiré par votre réponse, j'ai fourni quelques détails et ajouté une explication géométrique en réponse à ce problème sur MO: mathoverflow.net/questions/93745/…
Henry.L

21

@ cardinal a donné une excellente réponse (+1), mais le problème reste mystérieux à moins de connaître les preuves (et je ne le suis pas). Je pense donc que la question reste de savoir quelle est la raison intuitive pour laquelle le paradoxe de Stein n'apparaît pas dans et .RR2

Je trouve très utile une perspective de régression proposée dans Stephen Stigler, 1990, Perspective Galtonienne des estimateurs de retrait . Considérons des mesures indépendantes , chacune mesurant des sous-jacentes (non observées) et échantillonnées à partir de . Si nous connaissions en quelque sorte le , nous pourrions faire un diagramme de dispersion de paires :XiθiN(θi,1)θi(Xi,θi)

Le paradoxe de Stein: perspective de régression

La diagonale correspond à zéro bruit et à une estimation parfaite; en réalité, le bruit est non nul et les points sont donc déplacés de la diagonale dans le sens horizontal . De manière correspondante, peut être vu comme une droite de régression de sur . Cependant, nous connaissons et voulons estimer , nous devrions plutôt considérer une droite de régression de sur - qui aura une pente différente, biaisée horizontalement , comme indiqué sur la figure (ligne pointillée).θ=Xθ=XXθXθθX

Citant l'extrait de Stigler:

Cette perspective galtonienne du paradoxe de Stein le rend presque transparent. Les estimateurs "ordinaires" sont dérivés de la droite de régression théorique de sur . Cette ligne serait utile si notre objectif était de prédire de , mais notre problème est l'inverse, à savoir pour prédire de en utilisant la somme des carrés des erreurs comme un critère. Pour ce critère, les estimateurs linéaires optimaux sont donnés par la droite de régression des moindres carrés de surθ^i0=XiXθXθθX(θiθ^i)2θX, et les estimateurs de James-Stein et Efron-Morris sont eux-mêmes des estimateurs de cet estimateur linéaire optimal. Les estimateurs "ordinaires" sont dérivés de la mauvaise droite de régression, les estimateurs de James-Stein et Efron-Morris sont dérivés d'approximations de la droite de régression.

Et voici le moment crucial (soulignement ajouté):

On peut même voir pourquoi est nécessaire: si ou , la ligne des moindres carrés de sur doit passer par les points , et donc pour ou , la deux droites de régression (de sur et de sur ) doivent concorder à chaque .k3k=12θX(Xi,θi)k=12XθθXXi

Je pense que cela rend très clair ce qui est spécial à propos de et .k=1k=2

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.