Diagnostics résiduels et homogénéité des variances dans le modèle mixte linéaire

10

Avant de poser cette question, j'ai fait une recherche sur notre site et j'ai trouvé beaucoup de questions similaires (comme ici , ici et ici ). Mais je pense que ces questions connexes n'ont pas été bien répondues ou discutées, je voudrais donc soulever à nouveau cette question. Je pense qu'il devrait y avoir un grand nombre de spectateurs qui souhaitent que ce genre de questions soit expliqué plus clairement.

Pour mes questions, considérons d'abord le modèle linéaire à effets mixtes,

y = X β + Z γ + ϵ

$\mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon}$ où

X β

$X\boldsymbol \beta$ est la composante linéaire à effets fixes,

Z

$\mathbf{Z}$ est la matrice de conception supplémentaire correspondant aux paramètres à effets aléatoires ,

γ

$\boldsymbol \gamma$ . Et

ϵ \sim N (0, σ^{2} I)

$\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ est le terme d'erreur habituel.

Supposons que le seul facteur à effet fixe soit une variable catégorielle Traitement , avec 3 niveaux différents. Et le seul facteur à effet aléatoire est la variable Sujet . Cela dit, nous avons un modèle à effets mixtes avec un effet de traitement fixe et un effet de sujet aléatoire.

Mes questions sont donc les suivantes:

Existe-t-il une hypothèse d'homogénéité de la variance dans le cadre d'un modèle linéaire mixte, analogue aux modèles de régression linéaire traditionnels? Dans l'affirmative, que signifie spécifiquement cette hypothèse dans le contexte du problème du modèle mixte linéaire indiqué ci-dessus? Quelles sont les autres hypothèses importantes qui doivent être évaluées?

Mes pensées: OUI. les hypothèses (je veux dire, moyenne d'erreur nulle et variance égale) sont toujours d'ici: . Dans le cadre d'un modèle de régression linéaire traditionnel, nous pouvons dire que l'hypothèse est que "la variance des erreurs (ou simplement la variance de la variable dépendante) est constante à travers les 3 niveaux de traitement". Mais je ne sais pas comment expliquer cette hypothèse dans le cadre d'un modèle mixte. Faut-il dire "les variances sont constantes sur 3 niveaux de traitements, conditionnés sur les sujets? Ou pas?" $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$

Le document en ligne SAS sur les résidus et les diagnostics d'influence a fait apparaître deux résidus différents, à savoir les résidus marginaux , et les résidus conditionnels , Ma question est: à quoi servent les deux résidus? Comment les utiliser pour vérifier l'hypothèse d'homogénéité? Pour moi, seuls les résidus marginaux peuvent être utilisés pour résoudre le problème d'homogénéité, car il correspond au du modèle. Ma compréhension ici est-elle correcte?
$r_{m} = Y - X \hat{β}$ $\mathbf{r_m = Y - X \hat{\boldsymbol \beta}}$ $r_{c} = Y - X \hat{β} - Z \hat{γ} = r_{m} - Z \hat{γ} .$ $\mathbf{r_c = Y - X \hat{\boldsymbol \beta} - Z \hat{\boldsymbol \gamma} = r_m - Z \hat{\boldsymbol \gamma}} .$ $\boldsymbol \epsilon$
Y a-t-il des tests proposés pour tester l'hypothèse d'homogénéité sous un modèle mixte linéaire? @Kam a souligné le test de Levene précédemment, serait-ce la bonne façon? Sinon, quelles sont les directions? Je pense qu'après avoir ajusté le modèle mixte, nous pouvons obtenir les résidus et peut-être faire des tests (comme le test d'ajustement?), Mais vous ne savez pas comment ce serait.
J'ai également remarqué qu'il existe trois types de résidus de Proc Mixed dans SAS, à savoir le résidu brut , le résidu Studentized et le résidu Pearson . Je peux comprendre les différences entre eux en termes de formules. Mais pour moi, ils semblent très similaires en ce qui concerne les tracés de données réels. Alors, comment devraient-ils être utilisés dans la pratique? Y a-t-il des situations où un type est préféré aux autres?
Pour un exemple de données réelles, les deux graphiques résiduels suivants sont issus de Proc Mixed in SAS. Comment l'hypothèse d'homogénéité des variances pourrait-elle être abordée par eux?

[Je sais que j'ai quelques questions ici. Si vous pouviez me faire part de vos réflexions sur n'importe quelle question, c'est parfait. Pas besoin de les aborder tous si vous ne le pouvez pas. Je souhaite vraiment en discuter pour bien comprendre. Merci!]

Voici les parcelles résiduelles marginales (brutes).

Voici les parcelles résiduelles conditionnelles (brutes).

— Aaron Zeng
source

Grandes questions - une réponse possible à votre numéro 2 peut être trouvée ici comp.soft-sys.sas.narkive.com/7Qmrgufe/…

— dandar

3

Je pense que les questions 1 et 2 sont interconnectées. Tout d'abord, l'hypothèse d'homogénéité de la variance vient d'ici, . Mais cette hypothèse peut être assouplie à des structures de variance plus générales, dans lesquelles l'hypothèse d'homogénéité n'est pas nécessaire. Cela signifie que cela dépend vraiment de la façon dont la distribution de est supposée. $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ $\boldsymbol \epsilon$

Deuxièmement, les résidus conditionnels sont utilisés pour vérifier la distribution (donc toutes les hypothèses liées à) , tandis que les résidus marginaux peuvent être utilisés pour vérifier la structure de la variance totale. $\boldsymbol \epsilon$

— Aaron Zeng
source

Je suis confronté à certains des mêmes problèmes que @AaronZeng. Que signifie "vérifier la structure de la variance totale", pour laquelle les résidus marginaux doivent être utilisés? Comment procéder et pourquoi ne pas se concentrer uniquement sur la vérification de la structure de variance pour ? Je vous remercie. $\gamma$

— clarpaul

1

Il s'agit d'un sujet très large et je ne fournirai qu'une image générale de la connexion à la régression linéaire standard.

Dans le modèle répertorié dans la question, if , où désigne un sujet ou un cluster. Soit . En utilisant la décomposition de Cholesky , nous pouvons transformer le résultat et la matrice de conception,

y_{i} \sim N (X_{i} β, Z_{i} D Z_{i}^{'} + σ^{2} I),

$\mathbf{y_i \sim N(X_i\boldsymbol \beta, Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I)},$

γ_{i} \sim N (0, D)

$\boldsymbol \gamma_i \sim N(\mathbf{0, D})$

i

$i$

Σ_{i} = Z_{i} D Z_{i}^{'} + σ^{2} I

$\mathbf{\Sigma_i=Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I}$

Σ_{i} = L_{i} L_{i}^{'}

$\mathbf{\Sigma_i=L_i L'_i}$

y_{i}^{*} = L_{i}^{- 1} y_{i}; X_{i}^{*} = L_{i}^{- 1} X_{i} .

$\mathbf{y^*_i=L_i^{-1}y_i; X^*_i=L_i^{-1}X_i}.$

Comme indiqué dans l'analyse longitudinale appliquée (page 268), l'estimation des moindres carrés généralisés (GLS) de (régression sur ) peut être réestimée à partir de la régression OLS de sur . Ainsi, tous les diagnostics résiduels intégrés de l'OLS résultant peuvent être utilisés ici . $\boldsymbol \beta$ $\mathbf y_i$ $\mathbf X_i$ $\mathbf y^*_i$ $\mathbf X^*_i$

Ce que nous devons faire, c'est:

estimer partir des estimations des composantes résiduelles ou de variance (marginales) dans le modèle mixte linéaire; $\boldsymbol \Sigma_i$
réajuster une régression OLS en utilisant les données transformées.

La régression OLS suppose des observations indépendantes avec une variance homogène, de sorte que des techniques de diagnostic standard peuvent être appliquées à ses résidus.

Beaucoup plus de détails peuvent être trouvés dans le chapitre 10 «Analyses résiduelles et diagnostics» du livre Analyse longitudinale appliquée . Ils ont également discuté de la transformation du résidu avec , et il y a quelques tracés de résidus (transformés) (vs valeurs prédites ou prédicteurs). D'autres lectures sont répertoriées dans 10.8 «Lectures complémentaires» et notes bibliographiques. $\mathbf L_i$

De plus, à mon avis, étant donné que nous supposons que sont indépendants avec une variance homogène, nous pouvons tester ces hypothèses sur les résidus conditionnels en utilisant les outils de régression standard. $\boldsymbol \epsilon$

— Randel
source

Un article de presse sur ce sujet.

— Randel