La réponse courte est que votre conjecture est vraie quand et seulement quand il y a une corrélation intra-classe positive dans les données . Sur le plan empirique, la plupart des ensembles de données en cluster présentent la plupart du temps une corrélation intra-classe positive, ce qui signifie qu'en pratique, votre conjecture est généralement vraie. Mais si la corrélation intra-classe est 0, alors les deux cas que vous avez mentionnés sont tout aussi instructifs. Et si la corrélation intra-classe est négative , il est en fait moins instructif de prendre moins de mesures sur plus de sujets; nous préférerions en fait (en ce qui concerne la réduction de la variance de l'estimation des paramètres) prendre toutes nos mesures sur un même sujet.
Statistiquement, il y a deux perspectives à partir desquelles nous pouvons penser à cela: un effets aléatoires (ou mixtes ) modèle , que vous mentionnez dans votre question, ou un modèle marginal , qui finit par être un peu plus d' information ici.
Modèle à effets aléatoires (mixtes)
Supposons que nous ayons un ensemble de sujets sur lesquels nous avons pris m mesures chacun. Alors un simple modèle à effets aléatoires de la j ème mesure du i ème sujet pourrait être
y i j = β + u i + e i j ,
où β est l'ordonnée à l'origine fixe, u i est l'effet du sujet aléatoire (avec variance σ 2 u ), e i j est le terme d'erreur au niveau de l'observation (avec variance σ 2 enmjje
yje j= β+ uje+ eje j,
βujeσ2ueje jσ2e), et les deux derniers termes aléatoires sont indépendants.
Dans ce modèle, représente la moyenne de la population, et avec un ensemble de données équilibré (c'est-à-dire un nombre égal de mesures de chaque sujet), notre meilleure estimation est simplement la moyenne de l'échantillon. Donc, si nous prenons "plus d'informations" pour signifier une variance plus petite pour cette estimation, alors fondamentalement, nous voulons savoir comment la variance de la moyenne de l'échantillon dépend de n et m . Avec un peu d'algèbre, nous pouvons déterminer que
var ( 1βnm
En examinant cette expression, nous pouvons voir quechaque fois qu'il y a une variance de sujet(c'est-à-dire,σ2u>0), l'augmentation du nombre de sujets (n) réduira ces deux termes, tout en augmentant le nombre de mesures par sujet (m) ne fera que réduire le deuxième terme. (Pour une implication pratique de ceci pour la conception de projets de réplication multisite, voir
var ( 1n m∑je∑jyje j)= var ( 1n m∑je∑jβ+ uje+ eje j)= 1n2m2var ( ∑je∑juje+ ∑je∑jeje j)= 1n2m2( m2∑jevar ( uje)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
σ2u>0nm ce billet de blog que j'ai écrit il y a un moment .)
Vous vouliez maintenant savoir ce qui se passe lorsque nous augmentons ou diminuons ou n tout en maintenant constant le nombre total d'observations. Donc, pour cela, nous considérons n m comme une constante, de sorte que toute l'expression de la variance ressemble à
σ 2 umnnm
qui est aussi petite que possible lorsquenest aussi grande que possible (jusqu'à un maximum den=nm, auquel casm=1, ce qui signifie que nous prenons une seule mesure de chaque sujet).
σ2un+constant,
nn=nmm=1
ρ=σ2uσ2u+σ2e
var(1nm∑i∑jyij)=σ2un+σ2enm=(ρn+1−ρnm)(σ2u+σ2e)
σ2uρ que le concept d'une corrélation intra-classe négative n'a pas de sens; cela signifie simplement que le modèle à effets aléatoires n'a aucun moyen d'exprimer ce concept, qui est un échec du modèle, pas du concept. Pour exprimer ce concept de manière adéquate, nous devons considérer le modèle marginal.
Modèle marginal
yje j
yje j=β+e∗je j,
ujeeje je∗je j= uje+ eje jujeeje j i.ide∗je jCC = σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥, R =⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
ρe∗ρρ.)
var ( 1n m∑je∑jyje j)= var ( 1n m∑je∑jβ+ e∗je j)= 1n2m2var ( ∑je∑je∗je j)= 1n2m2( n ( mσ2+ ( m2- m ) ρ σ2) )= σ2( 1+(m-1)ρ )n m= ( ρn+ 1 - ρn m) σ2,
σ2e+ σ2u= σ2e∗je j= uje+ eje j
ρ ≥ - 1 / ( m - 1 )m = 2ρ = - 1m = 3ρ = - une / 2
Donc enfin, en considérant une fois de plus le nombre total d'observations n m
( 1+(m-1)ρ ) ×constante positive.
ρ > 0mρ < 0mnmρ = 0mn