Quand / pourquoi la tendance centrale d'une simulation de rééchantillonnage diffère-t-elle nettement de la valeur observée?

Doit-on toujours s'attendre à ce que la tendance centrale (c.-à-d. La moyenne et / ou la médiane) d'un échantillon bootstrap soit similaire à la valeur observée?

Dans ce cas particulier, j'ai des réponses qui sont distribuées de façon exponentielle pour les sujets dans deux conditions (je n'ai pas exécuté l'expérience, je n'ai que les données). J'ai été chargé de fixer la taille de l'effet (en termes de d de Cohen, la formule à un échantillon, c'est-à-dire $\bar{M_D}\over{s_D}$ où est l’estimation de l’écart type de la population. Le forum pour cela est fourni dans Rosenthal & Rosnow (2008) à la page 398, équation 13.27. Ils utilisent $\sigma$ dans le dénominateur car il est historiquement correct, mais la pratique standard a mal défini d comme utilisant $s$ , et donc je poursuis cette erreur dans le calcul ci-dessus.

J'ai randomisé à la fois au sein des participants (c'est-à-dire qu'un RT des participants peut être échantillonné plus d'une fois) et entre les sujets (les participants peuvent être échantillonnés plus d'une fois) de sorte que même si le participant 1 est échantillonné deux fois, leur RT moyenne dans les deux échantillons est peu susceptible d'être exactement égal. Pour chaque jeu de données randomisé / rééchantillonné, je recalcule d. Dans ce cas $N_{sim} = 10000$ . Ce que j'observe, c'est une tendance à ce que la valeur observée de d de Cohen soit généralement plus proche du 97,5e centile que du 2,5e centile des valeurs observées simulées. Elle tend également à être plus proche de 0 que la médiane du bootstrap (de 5% à 10% de la densité de la distribution simulée).

Qu'est-ce qui peut expliquer cela (en gardant à l'esprit l'ampleur de l'effet que j'observe)? Est-ce dû au fait qu'il est «plus facile» lors du rééchantillonnage d'obtenir des variances plus extrêmes que celles observées par rapport à l'extrémité des moyennes lors du rééchantillonnage? Cela pourrait-il être le reflet de données qui ont été trop massées / ajustées de manière sélective? Cette approche de rééchantillonnage est-elle la même chose qu'un bootstrap? Sinon, que faut-il faire d'autre pour arriver à un CI?

— russellpierce
source

Toute statistique non linéaire (une combinaison non linéaire de statistiques linéaires telles que des moyennes d'échantillon) a un petit biais d'échantillon. Cohen's $d$ ne fait évidemment pas exception: c'est essentiellement

ré = \frac{m_{1} - m_{2}}{\sqrt{m_{3} - m_{4}^{2}}}

$d=\frac{m_1 - m_2}{\sqrt{m_3-m_4^2}}$ ce qui est assez non linéaire, du moins en ce qui concerne les termes du dénominateur. Chacun des moments peut être considéré comme un estimateur non biaisé de ce qu'il est censé estimer:

\begin{array}{ll} m_{1} & = \frac{1}{n_{1}} \sum_{je \in groupe 1} y_{je}, \\ m_{2} & = \frac{1}{n_{2}} \sum_{je \in groupe 2} y_{je}, \\ m_{3} & = \frac{1}{n_{1} + n_{2}} \sum_{je} y_{je}^{2}, \\ m_{4} & = \frac{1}{n_{1} + n_{2}} \sum_{je} y_{je}, \end{array}

$\begin{array}{ll} m_1 & = \frac1{n_1} \sum_{i\in\mbox{group }1} y_i , \\ m_2 & = \frac1{n_2} \sum_{i\in\mbox{group }2} y_i , \\ m_3 & = \frac1{n_1+n_2} \sum_{i} y_i^2 , \\ m_4 & = \frac1{n_1+n_2} \sum_{i} y_i , \\ \end{array}$ Cependant, par l'inégalité de Jensen, il n'y a aucun moyen sur Terre d'obtenir un estimateur non biaisé de la quantité de population à partir d'une combinaison non linéaire. Donc

E [d] \neq

${\mathbb{E}}[ d]\neq$ population

d

$d$ dans des échantillons finis, bien que le biais soit généralement de l'ordre de

O (1 / n)

$O(1/n)$ . Un article de Wikipédia sur la taille des effets mentionne les petits biais de l'échantillon dans la discussion de Hedges

g

$g$ .

J'imagine que Cohen est $d$ a une plage limitée (dans le cas extrême, s'il n'y a pas de variabilité au sein des groupes, alors $d$ doit être égal $\pm 2$ , non?), d'où sa distribution d'échantillonnage doit être asymétrique, ce qui contribue aux biais de l'échantillon fini (une certaine fonction de l'asymétrie de la distribution d'échantillonnage est généralement le multiplicateur devant $1/n$ que j'ai mentionné ci-dessus). Plus vous vous rapprochez des limites de la plage autorisée, plus l'asymétrie est prononcée.

Ce que le bootstrap fait, plutôt miraculeusement si l'on considère qu'il s'agit d'une méthode aussi simple, c'est qu'il vous permet d'estimer ce biais d'échantillon fini en comparant la moyenne du bootstrap et l'estimation de l'échantillon d'origine. (Gardez à l'esprit que, sauf si vous faites des ajustements spéciaux à la façon dont l'échantillonnage bootstrap est configuré, le premier sera soumis à la variabilité Monte Carlo.) J'ai fourni des explications plus détaillées et plus techniques dans une autre question de bootstrap qui peut être utile de toute façon.

Maintenant, s'il y a un biais positif, c'est-à-dire que l'estimation basée sur l'échantillon d'origine est biaisée à la hausse par rapport à la population $d$ , le bootstrap se moquera de cela et produira des estimations qui sont, en moyenne, encore plus élevées que l'estimation de l'échantillon. Ce n'est pas aussi mauvais qu'il y paraît, car vous pouvez alors quantifier le biais et le soustraire de l'estimation d'origine. Si l'estimation initiale d'une quantité était $\hat\theta_n$ , et le bootstrap moyen des répliques bootstrap est $\bar\theta^*_n$ , alors l'estimation du biais est $\hat b_n=\bar\theta^*_n-\hat\theta_n$ , et une estimation corrigée du biais est $\hat\theta_n - \hat b_n=2\hat\theta_n - \bar\theta^*_n$ .

— StasK
source

Je savais déjà que le d de Cohen était une statistique biaisée. J'apprécie les détails concernant les raisons pour lesquelles il est biaisé. Néanmoins, je suis un peu sceptique quant à son biais dans la mesure où j'observe. L'article de Wikipedia ne définit pas «a» dans l'équation référencée. De plus, l'équation référencée et la vôtre semblent faire référence aux deux exemples de version du d de Cohen. Donc, je ne sais pas quelle ampleur de biais je devrais attendre dans ce cas et si votre réponse couvre la différence que je vois.

— russellpierce

Je ne sais pas non plus comment combiner vos deux derniers paragraphes. Bootstrap vous permettra d'estimer le biais, mais il donnera également des résultats plus biaisés que l'échantillon d'origine?

— russellpierce

Il n'y a pas

a

$a$ dans mes formules - quel est le

a

$a$ dont vous parlez? J'ai mis à jour le dernier paragraphe pour montrer comment obtenir des estimations de bootstrap corrigées des biais. Je ne suis pas un expert des tailles d'effet, et vous n'avez fourni aucun lien, j'ai donc utilisé la meilleure information disponible, qui était Wikipédia. Si Cohen à 1 échantillon

d

$d$ est similaire et non linéaire, alors mon explication s'applique qualitativement.

— StasK

La formule g de Hedge dans l'article lié utilise

a

$a$ . Je mettrai à jour ma question pour inclure un exemple de référence d de Cohen. Il est en effet non linéaire. Votre réponse prédit

O (1 / n)

$O(1/n)$ biais, mais la différence observée était beaucoup plus extrême que cela, donc je ne pense pas que votre réponse couvre le problème que je vois. J'ai fourni plus de détails ci-dessus - il se peut que je n'aie pas correctement mis en œuvre la procédure d'amorçage.

— russellpierce

O (1 / n)

$O(1/n)$ est juste le taux. J'ai vu des résultats assez stupides où la constante devant cela

1 / n

$1/n$ terme a été dérivé (ne vous méprenez pas, ce levage très lourd dérivant ces constantes, plus difficile que d'établir le taux lui-même), donc le tout ressemblait à

1 - 10^{8} / n

$1-10^8/n$ pour une probabilité supposée converger vers 1.

a

$a$ dans la formule Wikipedia est juste un indice fictif, comme

i

$i$ en somme ou

x

$x$ en intégration; celui qui a écrit l'article vient de le coller pour montrer que

J (a)

$J(a)$ est un raccourci pour le rapport des fonctions gamma.

— StasK