Estimateur de James-Stein avec des variances inégales

Chaque énoncé que je trouve de l'estimateur de James-Stein suppose que les variables aléatoires estimées ont la même variance (et l'unité).

Mais tous ces exemples mentionnent également que l'estimateur JS peut être utilisé pour estimer des quantités n'ayant rien à voir les unes avec les autres. L' exemple de wikipedia est la vitesse de la lumière, la consommation de thé à Taiwan et le poids du porc au Montana. Mais vraisemblablement, vos mesures sur ces trois quantités auraient des variances "vraies" différentes. Cela pose-t-il un problème?

Cela est lié à un problème conceptuel plus vaste que je ne comprends pas, lié à cette question: Estimateur de James-Stein: Comment Efron et Morris ont-ils calculé en facteur de retrait pour leur exemple de baseball? $\sigma^2$ Nous calculons le facteur de retrait comme suit: $c$

c = 1 - \frac{(k - 3) σ^{2}}{\sum (y - \bar{y})^{2}}

$c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2}$

Intuitivement, je pense que le terme est en fait - différent pour chaque quantité estimée. Mais la discussion dans cette question ne parle que de l'utilisation de la variance groupée ... $\sigma^2$ $\sigma^2_i$

J'apprécierais vraiment si quelqu'un pouvait dissiper cette confusion!

estimation shrinkage steins-phenomenon

— exp1orer
source

Si la variance est nous pouvons simplement multiplier à gauche par pour revenir au problème de James-Stein. Si est inconnu, mais chaque "observation" dans le problème est une moyenne d'échantillon calculée sur la base de observations, nous pouvons estimer avec un certain et espérons que nous obtiendrons également une situation de James-Stein si nous multiplions par place.

D = diag (σ_{1}^{2}, \dots, σ_{n}^{2})

$D = \mbox{diag}(\sigma_1^2, \ldots, \sigma_n^2)$

D^{- 1 / 2}

$D^{-1/2}$

D

$D$

m_{i}

$m_i$

D

$D$

\hat{D}

$\hat D$

{\hat{D}}^{- 1 / 2}

$\hat D^{-1/2}$

— guy

@guy: c'est une suggestion sensée (+1), mais cela se traduira par le même facteur de rétrécissement pour toutes les variables, alors que l'on voudrait rétrécir les variables différemment, en fonction de leur variance / incertitude. Voir la réponse que je viens de poster.

— amibe dit Réintégrer Monica

@amoeba Sure; Je ne suggérais pas que mon estimateur était pratique, mais seulement qu'il illustrait pourquoi les gens disaient les choses qu'OP mentionnait dans son deuxième paragraphe.

— gars

Cette question a été explicitement répondue dans la série classique d'articles sur l'estimateur de James-Stein dans le contexte Empirical Bayes rédigée dans les années 1970 par Efron & Morris. Je fais principalement référence à:

Efron et Morris, 1973, Stein's Estimation Rule and Its Competitors - An Empirical Bayes Approach
Efron et Morris, 1975, analyse des données avec l'estimateur de Stein et ses généralisations
Efron et Morris, 1977, Stein's Paradox in Statistics

L'article de 1977 est une exposition non technique à lire absolument. Là, ils présentent l'exemple de frappeur de baseball (qui est discuté dans le fil auquel vous avez lié); dans cet exemple, les variances d'observation sont en effet supposées égales pour toutes les variables, et le facteur de retrait est constant. $c$

Cependant, ils continuent de donner un autre exemple, qui estime les taux de toxoplasmose dans un certain nombre de villes d'El Salvador. Dans chaque ville, un nombre différent de personnes a été interrogé, et donc les observations individuelles (taux de toxoplasmose dans chaque ville) peuvent être considérées comme ayant des variances différentes (plus le nombre de personnes enquêtées est faible, plus la variance est élevée). L'intuition est certainement que les points de données à faible variance (faible incertitude) n'ont pas besoin d'être réduits aussi fortement que les points de données à forte variance (incertitude élevée). Le résultat de leur analyse est illustré sur la figure suivante, où cela peut en effet être observé:

entrez la description de l'image ici

Les mêmes données et analyses sont également présentées dans l'article beaucoup plus technique de 1975, dans une figure beaucoup plus élégante (ne montrant malheureusement pas les variances individuelles cependant), voir la section 3:

entrez la description de l'image ici

Ils y présentent un traitement empirique Bayes simplifié qui se déroule comme suit. Soit où est inconnu. Dans le cas où tous les sont identiques, le traitement empirique standard de Bayes consiste à estimer comme , et à calculer la moyenne a posteriori de as qui n'est rien autre que l'estimateur de James-Stein.

X_{i} | θ_{i} \sim N (θ_{i}, D_{i}) θ_{i} \sim N (0, A)

$X_i|\theta_i \sim \mathcal N(\theta_i, D_i)\\ \theta_i \sim \mathcal N(0, A)$

A

$A$

D_{i} = 1

$D_i=1$

1 / (1 + A)

$1/(1+A)$

(k - 2) / \sum X_{j}^{2}

$(k-2)/\sum X_j ^2$

θ_{i}

$\theta_i$

{\hat{θ}}_{i} = (1 - \frac{1}{1 + A}) X_{i} = (1 - \frac{k - 2}{\sum X_{j}^{2}}) X_{i},

$\hat \theta_i = \left(1-\frac{1}{1+A}\right)X_i = \left(1-\frac{k-2}{\sum X_j^2}\right)X_i,$

Si maintenant , alors la règle de mise à jour de Bayes est et nous pouvons utiliser la même astuce empirique de Bayes pour estimer , même s'il n'y a pas de formule fermée pour dans ce cas (voir l'article). Cependant, ils notent que $D_i \ne 1$

{\hat{θ}}_{i} = (1 - \frac{D_{i}}{D_{i} + A}) X_{i}

$\hat \theta_i = \left(1-\frac{D_i}{D_i+A}\right)X_i$

A

$A$

\hat{A}

$\hat A$

... cette règle ne se réduit pas à celle de Stein lorsque tous les sont égaux, et nous utilisons plutôt une variante mineure de cet estimateur dérivé de [l'article de 1973] qui se réduit à celle de Stein. La règle de variante estime une valeur différente pour chaque ville. La différence entre les règles est mineure dans ce cas, mais elle pourrait être importante si était plus petit. $D_j$ $\hat A_i$ $k$

La section pertinente de l'article de 1973 est la section 8, et c'est un peu plus difficile à lire. Fait intéressant, ils ont là un commentaire explicite sur la suggestion faite par @guy dans les commentaires ci-dessus:

Un moyen très simple de généraliser la règle de James-Stein pour cette situation consiste à définir , de sorte que , appliquez [la règle de James-Stein d'origine] aux données transformées, puis retransformez-les aux coordonnées d'origine. La règle résultante estime par Ceci n'est pas attrayant puisque chaque est rétréci vers l'origine par le même facteur. $\tilde x_i = D_i^{-1/2} x_i, \tilde \theta_i = D_i^{-1/2} \theta_i$ $\tilde x_i \sim \mathcal N(\tilde \theta_i, 1)$ $\theta_i$
${\hat{θ}}_{i} = (1 - \frac{k - 2}{\sum [X_{j}^{2} / D_{j}]}) X_{i} .$ $\hat \theta_i = \left(1-\frac{k-2}{\sum [X_j^2 / D_j]}\right)X_i.$ $X_i$

Ensuite, ils continuent et décrivent leur procédure préférée pour estimer que je dois avouer que je n'ai pas entièrement lu (c'est un peu compliqué). Je vous suggère de regarder là-bas si vous êtes intéressé par les détails. $\hat A_i$

— amibe dit réintégrer Monica
source