Montrant que 100 mesures pour 5 sujets fournissent beaucoup moins d'informations que 5 mesures pour 100 sujets

Lors d'une conférence, j'ai entendu la déclaration suivante:

100 mesures pour 5 sujets fournissent beaucoup moins d'informations que 5 mesures pour 100 sujets.

C'est un peu évident que c'est vrai, mais je me demandais comment on pouvait le prouver mathématiquement ... Je pense qu'un modèle mixte linéaire pourrait être utilisé. Cependant, je ne connais pas grand-chose aux mathématiques utilisées pour les estimer (je lance juste lmer4pour les LMM et bmrspour les GLMM :) Pourriez-vous me montrer un exemple où cela est vrai? Je préférerais une réponse avec quelques formules, plutôt qu'un simple code en R. N'hésitez pas à supposer un paramètre simple, comme par exemple un modèle mixte linéaire avec des interceptions et des pentes aléatoires normalement distribuées.

PS une réponse mathématique qui n'implique pas de LMM serait également acceptable. J'ai pensé aux LMM parce qu'ils me semblaient l'outil naturel pour expliquer pourquoi moins de mesures de plus de sujets sont meilleures que plus de mesures de peu de sujets, mais je peux très bien me tromper.

— DeltaIV
source

+1. Je suppose que le cadre le plus simple serait d'envisager une tâche d'estimation de la moyenne de la population

où chaque sujet a sa propre moyenne

et chaque mesure de ce sujet est distribuée comme

. Si nous prenons

mesures de chacun des

sujets, alors quelle est la meilleure façon de définir

étant donné le produit constant

μ

$\mu$

a \sim N (μ, σ_{a}^{2})

$a \sim \mathcal N(\mu, \sigma_a^2)$

x \sim N (a, σ^{2})

$x \sim \mathcal N(a, \sigma^2)$

n

$n$

m

$m$

n

$n$

m

$m$

n m = N

$nm=N$ .

— amibe, dit Reinstate Monica

"Optimal" dans le sens de minimiser la variance de la moyenne de l'échantillon des

points de données acquis.

N

$N$

— Amoeba dit Reinstate Monica

Oui. Mais pour votre question, nous n'avons pas besoin de nous soucier de la façon d'estimer les écarts; votre question (c.-à-d. la citation dans votre question) concerne, je crois, uniquement l'estimation de la moyenne globale

et il semble évident que le meilleur estimateur est donné par la grande moyenne

de tous les

points de l'échantillon. La question est alors: étant donné

, quelle est la variance de

? Si nous le savons, nous pourrons le minimiser par rapport à la

μ

$\mu$

\bar{x}

$\bar x$

N = n m

$N=nm$

μ

$\mu$

σ^{2}

$\sigma^2$

σ_{a}^{2}

$\sigma^2_a$

n

$n$

m

$m$

\bar{x}

$\bar x$

n

$n$ étant donné le

Contrainte

n m = N

$nm=N$

— amibe dit Réintégrer Monica

Je ne sais pas comment dériver tout cela, mais je conviens que cela semble évident: pour estimer la variance d'erreur, il serait préférable d'avoir toutes les mesures

d'un seul sujet; et pour estimer la variance des sujets, il serait (probablement?) préférable d'avoir

sujets différents avec 1 mesure chacun. Cependant, la moyenne n'est pas aussi claire, mais mon intuition me dit qu'avoir

sujets avec 1 mesure chacun serait mieux aussi. Je me demande si c'est vrai ...

N

$N$

N

$N$

N

$N$

— amibe dit Reinstate Monica

Peut-être quelque chose comme ça: La variance des moyennes d'échantillon par sujet devrait être

, où le premier terme est la variance du sujet et le second est la variance de l'estimation de la moyenne de chaque sujet. La variance de la moyenne des sur-sujets (c.-à-d. La moyenne générale) sera

σ_{a}^{2} + σ^{2} / n

$\sigma^2_a + \sigma^2/n$

qui est minimisé lorsque

(σ_{une}^{2} + σ^{2} / n) / m = σ_{une}^{2} / m + σ^{2} / (n m) = σ_{une}^{2} / m + σ^{2} / N = σ_{une}^{2} / m + c o n s t,

$(\sigma^2_a + \sigma^2/n)/m = \sigma^2_a/m + \sigma^2/(nm) = \sigma^2_a/m + \sigma^2/N = \sigma^2_a/m + \mathrm{const},$

m = N

$m=N$

— amibe dit Réintégrer Monica

La réponse courte est que votre conjecture est vraie quand et seulement quand il y a une corrélation intra-classe positive dans les données . Sur le plan empirique, la plupart des ensembles de données en cluster présentent la plupart du temps une corrélation intra-classe positive, ce qui signifie qu'en pratique, votre conjecture est généralement vraie. Mais si la corrélation intra-classe est 0, alors les deux cas que vous avez mentionnés sont tout aussi instructifs. Et si la corrélation intra-classe est négative , il est en fait moins instructif de prendre moins de mesures sur plus de sujets; nous préférerions en fait (en ce qui concerne la réduction de la variance de l'estimation des paramètres) prendre toutes nos mesures sur un même sujet.

Statistiquement, il y a deux perspectives à partir desquelles nous pouvons penser à cela: un effets aléatoires (ou mixtes ) modèle , que vous mentionnez dans votre question, ou un modèle marginal , qui finit par être un peu plus d' information ici.

Modèle à effets aléatoires (mixtes)

Supposons que nous ayons un ensemble de sujets sur lesquels nous avons pris mesures chacun. Alors un simple modèle à effets aléatoires de la ème mesure du ème sujet pourrait être où est l'ordonnée à l'origine fixe, est l'effet du sujet aléatoire (avec variance ), est le terme d'erreur au niveau de l'observation (avec variance $n$ $m$ $j$ $i$

y_{je j} = β + u_{je} + e_{je j},

$y_{ij} = \beta + u_i + e_{ij},$

β

$\beta$

u_{i}

$u_i$

σ_{u}^{2}

$\sigma^2_u$

e_{i j}

$e_{ij}$

σ_{e}^{2}

$\sigma^2_e$ ), et les deux derniers termes aléatoires sont indépendants.

Dans ce modèle, représente la moyenne de la population, et avec un ensemble de données équilibré (c'est-à-dire un nombre égal de mesures de chaque sujet), notre meilleure estimation est simplement la moyenne de l'échantillon. Donc, si nous prenons "plus d'informations" pour signifier une variance plus petite pour cette estimation, alors fondamentalement, nous voulons savoir comment la variance de la moyenne de l'échantillon dépend de et . Avec un peu d'algèbre, nous pouvons déterminer que $\beta$ $n$ $m$ En examinant cette expression, nous pouvons voir quechaque fois qu'il y a une variance de sujet(c'est-à-dire,), l'augmentation du nombre de sujets () réduira ces deux termes, tout en augmentant le nombre de mesures par sujet () ne fera que réduire le deuxième terme. (Pour une implication pratique de ceci pour la conception de projets de réplication multisite, voir

\begin{aligned} var (\frac{1}{n m} \sum_{i} \sum_{j} y_{i j}) & = var (\frac{1}{n m} \sum_{i} \sum_{j} β + u_{i} + e_{i j}) \\ = \frac{1}{n^{2} m^{2}} var (\sum_{i} \sum_{j} u_{i} + \sum_{i} \sum_{j} e_{i j}) \\ = \frac{1}{n^{2} m^{2}} (m^{2} \sum_{je} var (u_{je}) + \sum_{je} \sum_{j} var (e_{je j})) \\ = \frac{1}{n^{2} m^{2}} (n m^{2} σ_{u}^{2} + n m σ_{e}^{2}) \\ = \frac{σ_{u}^{2}}{n} + \frac{σ_{e}^{2}}{n m} . \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + u_i + e_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_ju_i + \sum_i\sum_je_{ij}) \\ &= \frac{1}{n^2m^2}\Big(m^2\sum_i\text{var}(u_i) + \sum_i\sum_j\text{var}(e_{ij})\Big) \\ &= \frac{1}{n^2m^2}(nm^2\sigma^2_u + nm\sigma^2_e) \\ &= \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm}. \end{aligned}$

σ_{u}^{2} > 0

$\sigma^2_u>0$

n

$n$

m

$m$ ce billet de blog que j'ai écrit il y a un moment .)

Vous vouliez maintenant savoir ce qui se passe lorsque nous augmentons ou diminuons ou tout en maintenant constant le nombre total d'observations. Donc, pour cela, nous considérons comme une constante, de sorte que toute l'expression de la variance ressemble à $m$ $n$ $nm$ qui est aussi petite que possible lorsqueest aussi grande que possible (jusqu'à un maximum de, auquel cas, ce qui signifie que nous prenons une seule mesure de chaque sujet).

\frac{σ_{u}^{2}}{n} + constant,

$\frac{\sigma^2_u}{n} + \text{constant},$

n

$n$

n = n m

$n=nm$

m = 1

$m=1$

ρ = \frac{σ_{u}^{2}}{σ_{u}^{2} + σ_{e}^{2}}

$\rho = \frac{\sigma^2_u}{\sigma^2_u + \sigma^2_e}$

var (\frac{1}{n m} \sum_{i} \sum_{j} y_{i j}) = \frac{σ_{u}^{2}}{n} + \frac{σ_{e}^{2}}{n m} = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) (σ_{u}^{2} + σ_{e}^{2})

$\text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) = \frac{\sigma^2_u}{n} + \frac{\sigma^2_e}{nm} = \Big(\frac{\rho}{n} + \frac{1-\rho}{nm}\Big)(\sigma^2_u+\sigma^2_e)$

$\sigma^2_u$ $\rho$ que le concept d'une corrélation intra-classe négative n'a pas de sens; cela signifie simplement que le modèle à effets aléatoires n'a aucun moyen d'exprimer ce concept, qui est un échec du modèle, pas du concept. Pour exprimer ce concept de manière adéquate, nous devons considérer le modèle marginal.

Modèle marginal

$y_{ij}$

y_{i j} = β + e_{je j}^{*},

$y_{ij} = \beta + e^*_{ij},$

u_{i}

$u_i$

e_{i j}

$e_{ij}$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$

u_{i}

$u_i$

e_{i j}

$e_{ij}$ i.id

e_{i j}^{*}

$e^*_{ij}$

C

$\textbf{C}$

C = σ^{2} [\begin{matrix} R & 0 & \dots & 0 \\ 0 & R & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & R \end{matrix}], R = [\begin{matrix} 1 & ρ & \dots & ρ \\ ρ & 1 & \dots & ρ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ ρ & ρ & \dots & 1 \end{matrix}]

$\textbf{C}= \sigma^2\begin{bmatrix} \textbf{R} & 0& \cdots & 0\\ 0& \textbf{R} & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots \\ 0& 0& \cdots &\textbf{R}\\ \end{bmatrix}, \textbf{R}= \begin{bmatrix} 1 & \rho & \cdots & \rho \\ \rho & 1 & \cdots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho & \rho & \cdots &1\\ \end{bmatrix}$

ρ

$\rho$

e^{*}

$e^*$

ρ

$\rho$

ρ

$\rho$ .)

\begin{aligned} var (\frac{1}{n m} \sum_{je} \sum_{j} y_{je j}) & = var (\frac{1}{n m} \sum_{je} \sum_{j} β + e_{je j}^{*}) \\ = \frac{1}{n^{2} m^{2}} var (\sum_{je} \sum_{j} e_{je j}^{*}) \\ = \frac{1}{n^{2} m^{2}} (n (m σ^{2} + (m^{2} - m) ρ σ^{2})) \\ = \frac{σ^{2} (1 + (m - 1) ρ)}{n m} \\ = (\frac{ρ}{n} + \frac{1 - ρ}{n m}) σ^{2}, \end{aligned}

$\begin{aligned} \text{var}(\frac{1}{nm}\sum_i\sum_jy_{ij}) &= \text{var}(\frac{1}{nm}\sum_i\sum_j\beta + e^*_{ij}) \\ &= \frac{1}{n^2m^2}\text{var}(\sum_i\sum_je^*_{ij}) \\ &= \frac{1}{n^2m^2}\Big(n\big(m\sigma^2 + (m^2-m)\rho\sigma^2\big)\Big) \\ &= \frac{\sigma^2\big(1+(m-1)\rho\big)}{nm} \\ &= \Big(\frac{\rho}{n}+\frac{1-\rho}{nm}\Big)\sigma^2, \end{aligned}$

σ_{e}^{2} + σ_{u}^{2} = σ^{2}

$\sigma^2_e+\sigma^2_u=\sigma^2$

e_{i j}^{*} = u_{i} + e_{i j}

$e^*_{ij} = u_i + e_{ij}$

$\rho \ge -1/(m-1)$ $m=2$ $\rho=-1$ $m=3$ $\rho=-1/2$

Donc enfin, en considérant une fois de plus le nombre total d'observations $nm$

(1 + (m - 1) ρ) \times constante positive .

$\big(1+(m-1)\rho\big) \times \text{positive constant}.$

ρ > 0

$\rho>0$

m

$m$

ρ < 0

$\rho<0$

m

$m$

n m

$nm$

ρ = 0

$\rho=0$

m

$m$

n

$n$

— Jake Westfall
source

ρ < 0

$\rho<0$

n m

$nm$

σ_{u}

$\sigma_u$

β

$\beta$

m

$m$

ρ

$\rho$

σ_{u}^{2}

$\sigma^2_u$

Σ

$\Sigma$

σ_{u}^{2} + σ_{e}^{2} / m_{i}

$\sigma^2_u + \sigma^2_e/m_i$

m

$m$

ρ

$\rho$

m

$m$