Cette note dépend des résultats contenus dans Moser Linear Models: A Mean Model Approach . Je vais citer quelques résultats de ce livre dans ce qui suit. Quand j'ai vu votre question, j'ai commencé à parcourir le livre: cette note est juste la façon dont mes pensées ont été organisées après.
Laisser y∼Nn(μ,Σ) être la réponse, avec μ contenant les effets fixes et Σ contenant les effets aléatoires.
Prendre yTAiyêtre la somme des carrés correspondant à chaque terme (covariables et interactions) dans le modèle. Notez que ces sommes de carrés sont invariantes selon que les termes sont fixes ou aléatoires. Supposons que chacunAi est symétrique et idempotent, ce qui sera vrai dans la plupart des modèles d'intérêt.
Quand il tient ça
I=∑iAi,
ce qui revient à la somme des carrés correspondant à une décomposition en sous-espaces orthogonaux puisque nous avons supposé la
Ai sont des projecteurs, et
Σ=∑iciAi,
par le théorème de Cochran (lemme 3.4.1),
yTAiy∼ciχ2di(μTAiμ/ci),
pour
di=tr(Ai), et
yTAjy est indépendant de
yTAky pour
j≠k.
Le terme
F~=yTAjy/djyTAky/dk∼cjχ2dj(μTAjμ/cj)/djckχ2dk(μTAkμ/ck)/dk
est en effet un (central)
F statistique si et seulement si
cjckμTAjμμTAkμ=1,=0,=0, and (1)(2)(3)
Lorsque ces trois conditions sont remplies, nous pouvons calculer
p-valeurs correspondant à la statistique
F~. Ces termes aident simplement à la calculabilité depuis la
cidépendent des composantes de la variance et les paramètres de non-centralité dépendent de la moyenne
μ. La deuxième condition garantit que
F~ aura (au moins) un non central
FDistribution. Sous la deuxième condition, la troisième condition donne que
F~ a un central
F Distribution.
Les carrés moyens attendus (EMS) correspondant à la ith somme des carrés yTAiy est
EMSi:=1tr(Ai)E[yTAiy]=tr(AiΣ)+μTAiμtr(Ai)=ci+μTAiμtr(Ai),
où
tr(AiΣ)=citr(Ai)en raison de cor 3.1.2. Le rapport
EMSjEMSk=cj+μTAjμtr(Aj)ck+μTAkμtr(Ak)=1
si conditions
(1),
(2), et
(3)tenir. C’est pourquoi les gens inspectent le
EMS lors de la détermination des sommes de carrés à diviser pour former un
F statistique pour tester une hypothèse nulle particulière.
Nous utilisons des conditions (1),(2), et (3)pour spécifier l'hypothèse nulle. D'après mon expérience, lorsque le terme (correspondant àj) que nous sommes intéressés à tester est aléatoire, nous faisons l'hypothèse nulle être cj/ck=1, et, quand c'est fixe, on fait l'hypothèse nulle yTAjy=0. En particulier, ceux-ci nous permettent de choisirk de sorte que le reste des conditions (1),(2) et (3)sont satisfait. Un tel choix dekn'est pas toujours possible, ce qui entraîne des difficultés de type Behrens-Fisher .
Cela n'explique rien de particulièrement lié au problème à résoudre, mais cela revient à calculer μ et Σ. J'espère que cela est considéré comme une manière utile de réfléchir au problème. Notez que l'exemple 4.4.1 détermine quelles sont toutes les quantités ci-dessus dans l'exemple ANOVA bidirectionnel.
La différence est due à la structure du problème et non à la convention. Ces différentes approches (mesure bidirectionnelle vs mesure répétée) changentμ et Σ, qui change le SME, qui change qui k nous choisissons de construire le test.
Prenons le modèle
yijk=μ0+idi+Xw1j+id∗Xw1ij+R(id∗Xw1)k(ij),
où
i dénote le niveau de
id, etc. Ici
k indique laquelle des 3 répétitions est envisagée.
Nous introduisons maintenant une notation vectorielle utile: écrire y=(y111,y112,y113,y121,…y20,3,3). Puisque ces données sont équilibrées, nous pouvons faire de la notation du produit kronecker . (En passant, on m'a dit que Charlie Van Loan a appelé le produit kronecker "l'opération des années 2000!") DéfinirJ¯∈Rm×m être la matrice avec toutes les entrées égales à 1m et C=I−J¯être la matrice de centrage. (La matrice de centrage est ainsi nommée car, par exemple,∥Cx∥22=∑i(xi−x¯)2 pour un vecteur x.)
Avec cette notation de produit kronecker sous ceinture, nous pouvons trouver les matrices Aimentionné ci-dessus. La somme des carrés correspondant àμ0 est
SS(μ0)=n(y¯⋅⋅⋅)2=∥(J¯⊗J¯⊗J¯)y∥22=yT(J¯⊗J¯⊗J¯)y,
où le premier composant
J¯∈R20×20, le second est en
R3×3, et le troisième est en
R3×3. De manière générale, les matrices de ces composants seront toujours de cette taille. De plus, la somme des carrés due à
id est
SS(id)=∑ijk(y¯i⋅⋅−y¯⋅⋅⋅)2=∥(C⊗J¯⊗J¯)y∥22=yT(C⊗J¯⊗J¯)y.
Remarquerez que
SS(id) mesure en effet la variation entre les niveaux de
id. De même, les autres matrices sont
AXw1=J¯⊗C⊗J¯,
Aid∗Xw1=C⊗C⊗J¯, et
AR()=I⊗I⊗C.
Il est démontré que cela est cohérent avec l' aov
exécution de code pour donner, par exemple, la somme résiduelle des carrésSS(R(id∗Xw1))=yTAR()y:
mY <- c()
for(j in 1:(nrow(d)/3)) {
mY <- c(mY, rep(mean(d$Y[3*(j-1)+(1:3)]), 3))
}
sum((d$Y - mY)^2) #this is the residual sum of squares
À ce stade, nous devons faire des choix de modélisation. En particulier, nous devons décider siidest un effet aléatoire. Supposons d'abord qu'il ne s'agit pas d'un effet aléatoire, de sorte que tous les effets en dehors de la réplication soient fixes. alors
E[yijk]=μij=μ0+idi+Xw1jk+id∗Xw1ij
et
R(id∗Xw1)k(ij)∼iidN(0,σ2). Notez qu'il n'y a pas de dépendance entre des observations distinctes. En notation vectorielle, on peut écrire
y∼N(μ,Σ)
pour
μ=E[y]=(μ11,μ12,…,μ20,3)⊗13 et
Σ=σ2(I⊗I⊗I).
Constatant que la somme de tous 5 du Adéfini ci-dessus est l'identité, nous savons par le théorème de Cochran que, entre autres,
SS(Xw1)=yTAXw1y∼σ2χ2(19)(1)(1)(μTAXw1μ/σ2)
et
SS(R(id∗Xw1))=yTAR()y∼σ2χ2(20)(3)(2)(μTAR()μ/σ2)
et ces sommes de carrés sont indépendantes.
Maintenant, conformément à ce que nous avons discuté ci-dessus, nous voulons des conditions (1),(2), et (3)tenir. Notez cette condition(1) détient (car il n'y a pas d'autres composants de variance pour compliquer les choses.) Ce qui est vraiment cool de remarquer maintenant, c'est que μTAR()μ=0, depuis μ est constante le long de ce troisième "composant" qui est centré par AR(). Cela signifie que(3)est derrière nous. Par conséquent, nous n'avons qu'à nous inquiéter de l'état(2): si nous supposons (comme une hypothèse nulle) alors nous supposons que 0=μTAXw1μ=∑ijk(μij−μ¯i⋅)2, qui est identique à μij=μ¯i⋅ pour tous i,j, qui est identique à Xw1j=0 et id∗Xw1ij=0 pour tous i,j (puisque le niveau moyen est dans les autres termes.)
En résumé, l'hypothèse nulle peut simplement être considérée comme testant si un paramètre de non-centralité est nul, ce qui équivaut à des effets concernant la covariable étant nulle. Le cas des mesures répétées suit un raisonnement similaire, où nous faisons plutôt le choix de modélisation que leidl'effet est aléatoire. Là, condition(1) deviendra l'hypothèse nulle.
Lié à la R
commande, comme vous le mentionnez dans les commentaires de l'article d'origine, ce terme d'erreur spécifie simplement quels termes doivent être considérés comme des effets aléatoires. (Notez que tous les termes qui doivent être inclus dans le modèle doivent être clairement entrés ou entrés à l'intérieur du Error()
terme. C'est pourquoi il y a une différence entre id/Xw1 = id + id:Xw1
et id
étant dans le Error
terme. Les termes non inclus sont regroupés avec l'erreur dans le sens oùAR()+Aid∗Xw1 est rebaptisé AR().)
Voici les détails explicites liés au cas des mesures répétées où les termes liés à id (qui sont id et id∗Xw1) sont aléatoires. Nous verrons que c'est le cas le plus intéressant.
Là, nous avons la même somme de matrices carrées (car elles ne dépendent pas du fait qu'un facteur soit fixe ou aléatoire.) La matrice de covariance y est
Σ=(a)σ2id(I⊗J⊗J)+σ2id∗Xw1(I⊗C⊗J)+σ2R()(I⊗I⊗I)=σ2id(3)(3)(Aμ0+Aid)+σ2id∗Xw1(3)(AXw1+Aid∗Xw1)+σ2R()(Aμ0+Aid+AXw1+Aid∗Xw1+AR())=((3)(3)σ2id+σ2R())Aμ0+((3)(3)σ2id+σ2R())Aid+((3)σ2id∗Xw1+σ2R())AXw1+((3)σ2id∗Xw1+σ2R())Aid∗Xw1+σ2R()AR(),
où
Jest la matrice de tous. La première et la dernière sommation à droite de l'égalité (a) offrent des explications intuitives: la première sommation montre qu'il existe une source supplémentaire de corrélation entre les observations ayant la même
id, et la troisième sommation montre, comme dans l'exemple bidirectionnel, la source de variation de base. Ce deuxième résumé est moins intuitif, mais parmi les observations avec le même \ mathrm {id}, il peut être vu comme une variation croissante entre les observations avec le même
Xw1 tout en diminuant la variation entre les observations avec différentes
Xw1, en raison de la forme de
I⊗C⊗J.
De plus, puisque tous les termes liés à id sont aléatoires, la moyenne est simplement due à Xw1, pour que E[yijk]=μj=μ0+Xw1j, ou μ=1⊗(μ1,μ2,μ3)⊗1.
Notez que, lié à la condition (1): on a
cXw1cid∗Xw1=(3)σ2id∗Xw1+σ2R()(3)σ2id∗Xw1+σ2R()=1,
tandis que
cXw1cR()=(3)σ2id∗Xw1+σ2R()σ2R()≠1.
En outre, lié à la condition
(3) tous les deux
μTAXw1∗idμ=0 et
μTAR()μ=0. Aussi, lié à la condition
(2): on voit ça
μTAXw1μ=∥AXw1μ∥22=∥(J¯⊗C⊗J¯)(1⊗(μ1,μ2μ3)′⊗1)∥22=(20)(3)∥C(μ1,μ2μ3)′∥22=(20)(3)∑j(Xw1j)2.
Par conséquent, si la somme des carrés au dénominateur était le résidu R(id∗Xw1) comme avant, il y aurait les deux conditions (1) et (2)dans l'hypothèse nulle --- puisque ce sont les deux conditions qui ne sont pas remplies sans hypothèses. Cependant, si nous devions utiliser la somme des carrés du dénominateur comme interaction, puisque la condition(1) est déjà satisfaite, l'hypothèse nulle ne serait que condition (2). Ainsi, comme vous le mentionnez dans votre question, ces différents dénominateurs équivalent simplement à des hypothèses nulles différentes.
Cette technique d'analyse que nous utilisons permet au choix de l'hypothèse nulle testée d'être transparente. En effet, nous pouvons voir cela en écrivant plus explicitement les conditions mentionnées dans le paragraphe précédent. L'utilisation du dénominateur comme somme résiduelle des carrés nous oblige à testerXw1j=0 pour tous j et σ2id∗Xw1=0, tout en utilisant le dénominateur comme somme d'interaction des carrés nous permet de tester simplement Xw1j=0 pour tous j.