Variance de la statistique

Le de Cohen $d$ est l'une des façons les plus courantes de mesurer la taille d'un effet ( voir Wikipedia ). Il mesure simplement la distance entre deux moyennes en termes d'écart type groupé. Comment dériver la formule mathématique d'estimation de la variance du de Cohen $d$ ?

Édition de décembre 2015: L' idée de calculer les intervalles de confiance autour de est liée à cette question $d$ . Cet article déclare que

σ_{d}^{2} = \frac{n_{+}}{n_{\times}} + \frac{d^{2}}{2 n_{+}}

$\sigma_{d}^2 = \dfrac{n_{+}}{n_{\times}} + \dfrac{d^2}{2n_{+}}$

où $n_{+}$ est la somme des deux tailles d'échantillon et $n_{\times}$ est le produit des deux tailles d'échantillon.

Comment cette formule est-elle dérivée?

variance effect-size cohens-d

— JRK
source

@ Clarinettiste: Il est quelque peu controversé de modifier la question d'une autre personne pour y ajouter plus de substance et plus de questions (par opposition à l'amélioration de la formulation). J'ai pris la liberté d'approuver votre montage (étant donné que vous avez placé une généreuse prime et que je pense que votre montage améliore la question), mais d'autres pourraient décider de revenir en arrière.

— amibe dit Réintégrer Monica

@amoeba Pas de problème. Tant que la formule est là pour

(qui n'existait pas auparavant) et qu'il est clair que nous recherchons une dérivation mathématique de la formule, c'est bien.

σ_{d}^{2}

$\sigma^2_d$

— Clarinettiste

Je pense que le dénominateur de la deuxième fraction devrait être

. Voir ma réponse ci-dessous.

2 (n_{+} - 2)

$2(n_{+}-2)$

Notez que l'expression de la variance dans la question est une approximation. Hedges (1981) a dérivé la grande variance de l'échantillon de et l'approximation dans un cadre général (c'est-à-dire plusieurs expériences / études), et ma réponse passe en revue les dérivations dans l'article. $d$

Tout d'abord, les hypothèses que nous utiliserons sont les suivantes:

Supposons que nous avons deux groupes de traitement indépendants, (traitement) et (contrôle). Soit et les scores / réponses / quoi que ce soit du sujet dans le groupe et du sujet dans le groupe , respectivement. $T$ $C$ $Y_{Ti}$ $Y_{Cj}$ $i$ $T$ $j$ $C$

Nous supposons que les réponses sont normalement distribuées et que les groupes de traitement et de contrôle partagent une variance commune, c.-à-d.

\begin{aligned} Y_{T i} & \sim N (μ_{T}, σ^{2}), i = 1, \dots n_{T} \\ Y_{C j} & \sim N (μ_{C}, σ^{2}), j = 1, \dots n_{C} \end{aligned}

$\begin{align*} Y_{Ti} &\sim N(\mu_T, \sigma^2), \quad i = 1, \dots n_T \\ Y_{Cj} &\sim N(\mu_C, \sigma^2), \quad j = 1, \dots n_C \end{align*}$

La taille de l'effet que nous souhaitons estimer dans chaque étude est . L'estimateur de la taille d'effet que nous utiliserons est $\delta = \frac{\mu_T - \mu_C}{\sigma}$ oùest la variance d'échantillon sans biais pour le groupe.

d = \frac{{\bar{Y}}_{T} - {\bar{Y}}_{C}}{\sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}}

$\begin{equation*} d = \frac{\bar{Y}_T - \bar{Y}_C}{\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \end{equation*}$

S_{k}^{2}

$S_k^2$

k

$k$

Examinons les propriétés à grand échantillon de . $d$

Tout d'abord, notez que: et (étant lâche avec ma notation):

{\bar{Y}}_{T} - {\bar{Y}}_{C} \sim N (μ_{T} - μ_{C}, σ^{2} \frac{n_{T} + n_{C}}{n_{T} n_{C}})

$\begin{equation*} \bar{Y}_T - \bar{Y}_C \sim N \Bigg( \mu_T - \mu_C, \,\sigma^2\frac{n_T + n_C}{n_T n_C} \Bigg) \end{equation*}$

\begin{matrix} (1) & \frac{(n_{T} - 1) S_{T}^{2}}{σ^{2} (n_{T} + n_{C} - 2)} = \frac{1}{n_{T} + n_{C} - 2} \frac{(n_{T} - 1) S_{T}^{2}}{σ^{2}} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{T} - 1}^{2} \end{matrix}

$\begin{equation} \frac{(n_T - 1)S_T^{2}}{\sigma^2(n_T + n_C - 2)} = \frac{1}{n_T + n_C - 2}\frac{(n_T - 1)S_T^{2}}{\sigma^2} \sim \frac{1}{n_T + n_C- 2}\chi_{n_T - 1}^2 \tag{1} \end{equation}$

\begin{matrix} (2) & \frac{(n_{C} - 1) S_{C}^{2}}{σ^{2} (n_{T} + n_{C} - 2)} = \frac{1}{n_{T} + n_{C} - 2} \frac{(n_{C} - 1) S_{C}^{2}}{σ^{2}} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{C} - 1}^{2} \end{matrix}

$\begin{equation} \frac{(n_C - 1)S_C^{2}}{\sigma^2(n_T + n_C - 2)} = \frac{1}{n_T + n_C - 2}\frac{(n_C - 1)S_C^{2}}{\sigma^2} \sim \frac{1}{n_T + n_C- 2}\chi_{n_C - 1}^2 \tag{2} \end{equation}$

\frac{1}{σ^{2}} \frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2} \sim \frac{1}{n_{T} + n_{C} - 2} χ_{n_{T} + n_{C} - 2}^{2}

$\begin{equation*} \frac{1}{\sigma^2}\frac{(n_T - 1)S_T^{2} + (n_C - 1)S_C^{2}}{n_T + n_C - 2} \sim \frac{1}{n_T + n_C - 2}\chi_{n_T + n_C - 2}^2 \end{equation*}$

\begin{aligned} d & = \frac{{\bar{Y}}_{T} - {\bar{Y}}_{C}}{\sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}} \\ = \frac{{(σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} ({\bar{Y}}_{T} - {\bar{Y}}_{C})}{{(σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} \sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{n_{T} + n_{C} - 2}}} \\ = \frac{\frac{({\bar{Y}}_{T} - {\bar{Y}}_{C}) - (μ_{T} - μ_{C})}{σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}} + \frac{μ_{T} - μ_{C}}{σ \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}}}{{(\sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}})}^{- 1} \sqrt{\frac{(n_{T} - 1) S_{T}^{2} + (n_{C} - 1) S_{C}^{2}}{σ^{2} (n_{T} + n_{C} - 2)}}} \\ = \sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}} (\frac{θ + δ \sqrt{\frac{n_{T} n_{C}}{n_{T} + n_{C}}}}{\sqrt{\frac{V}{ν}}}) \end{aligned}

$\begin{align*} d &= \frac{\bar{Y}_T - \bar{Y}_C}{\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \\\\ &= \frac{\left(\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}(\bar{Y}_T - \bar{Y}_C)}{\left(\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{n_T + n_C - 2}}} \\\\ &= \frac{\frac{(\bar{Y}_T - \bar{Y}_C) - (\mu_T - \mu_C)}{\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}} + \frac{\mu_T - \mu_C}{\sigma\sqrt{\frac{n_T + n_C}{n_T n_C}}}}{\left(\sqrt{\frac{n_T + n_C}{n_T n_C}}\right)^{-1}\sqrt{\frac{(n_T - 1)S_T^2 + (n_C - 1)S_C^2}{\sigma^2(n_T + n_C - 2)}}} \\\\ &= \sqrt{\frac{n_T + n_C}{n_T n_C}}\left(\frac{\theta + \delta\sqrt{\frac{n_T n_C}{n_T + n_C}}}{\sqrt{\frac{V}{\nu}}}\right) \end{align*}$

θ \sim N (0, 1)

$\theta \sim N(0,1)$

V \sim χ_{ν}^{2}

$V \sim \chi^2_{\nu}$

ν = n_{T} + n_{C} - 2

$\nu = n_T+n_C-2$

d

$d$

\sqrt{\frac{n_{T} + n_{C}}{n_{T} n_{C}}}

$\sqrt{\frac{n_T + n_C}{n_T n_C}}$

n_{T} + n_{C} - 2

$n_T + n_C - 2$

δ \sqrt{\frac{n_{T} n_{C}}{n_{T} + n_{C}}}

$\delta\sqrt{\frac{n_T n_C}{n_T + n_C}}$

$t$

\begin{matrix} (3) & V a r (d) = \frac{(n_{T} + n_{C} - 2)}{(n_{T} + n_{C} - 4)} \frac{(n_{T} + n_{C})}{n_{T} n_{C}} (1 + δ^{2} \frac{n_{T} n_{C}}{n_{T} + n_{C}}) - \frac{δ^{2}}{b^{2}} \end{matrix}

$\begin{equation*} \mathrm{Var}(d) = \frac{(n_T + n_C - 2)}{(n_T + n_C - 4)}\frac{(n_T + n_C)}{n_T n_C}(1+ \delta^2\frac{n_T n_C}{n_T + n_C}) - \frac{\delta^2}{b^2} \tag{3} \end{equation*}$

b = \frac{Γ (\frac{n_{T} + n_{C} - 2}{2})}{\sqrt{\frac{n_{T} + n_{C} - 2}{2}} Γ (\frac{n_{T} + n_{C} - 3}{2})} \approx 1 - \frac{3}{4 (n_{T} + n_{C} - 2) - 1}

$\begin{equation*} b = \frac{\Gamma\left(\frac{n_T + n_C - 2}{2}\right)}{\sqrt{\frac{n_T+n_C-2}{2}}\Gamma\left(\frac{n_T+n_C-3}{2}\right)} \approx 1 - \frac{3}{4(n_T+n_C-2)-1} \end{equation*}$

$\delta$ $b d$

V une r (b ré) = b^{2} \frac{(n_{T} + n_{C} - 2)}{(n_{T} + n_{C} - 4)} \frac{(n_{T} + n_{C})}{n_{T} n_{C}} (1 + δ^{2} \frac{n_{T} n_{C}}{n_{T} + n_{C}}) - δ^{2}

$\begin{equation*} \mathrm{Var}(bd) = b^2\frac{(n_T + n_C - 2)}{(n_T + n_C - 4)}\frac{(n_T + n_C)}{n_T n_C}(1+ \delta^2\frac{n_T n_C}{n_T + n_C}) - \delta^2 \end{equation*}$

$n_T+n_C-2$ $t$ $\nu$ $p$ $1 + \frac{p^2}{2\nu}$

\begin{aligned} V une r (ré) & \approx \frac{n_{T} + n_{C}}{n_{T} n_{C}} (1 + \frac{δ^{2} (\frac{n_{T} n_{C}}{n_{T} + n_{C}})}{2 (n_{T} + n_{C} - 2)}) \\ = \frac{n_{T} + n_{C}}{n_{T} n_{C}} + \frac{δ^{2}}{2 (n_{T} + n_{C} - 2)} \end{aligned}

$\begin{align*} \mathrm{Var}(d) &\approx \frac{n_T + n_C}{n_T n_C}\left(1 + \frac{\delta^2\left(\frac{n_T n_C}{n_T + n_C}\right)}{2(n_T+n_C-2)}\right) \\\\ &= \frac{n_T + n_C}{n_T n_C} + \frac{\delta^2}{2(n_T+n_C-2)} \end{align*}$

$\delta$

{\bar{Y}}_{i}^{T} - {\bar{Y}}_{i}^{C}

$\bar{Y}^{T}_{i} - \bar{Y}^{C}_{i}$

b

$b$

d

$d$

@ Clarinettiste Merci! 1) Comment peuvent-ils avoir le même indice? Typo, c'est comme ça! : P Ils sont un artefact de mon premier projet de réponse. Je vais arranger ça. 2) Je l'ai retiré du papier Hedges - je ne connais pas sa dérivation pour le moment mais j'y penserai un peu plus.

b

$b$

Γ (\frac{n_{T} + n_{C} - 2}{2})

$\Gamma\left(\dfrac{n_T+n_C-2}{2}\right)$

Dérivation fournie à titre de référence: math.stackexchange.com/questions/1564587/… . Il s'avère qu'il y a probablement une erreur de signe.

— Clarinettiste

@mike: réponse très impressionnante. Merci d'avoir pris le temps de la partager avec nous.

— Denis Cousineau