Mesures répétées ANOVA: quelle est l'hypothèse de normalité?

Je suis confus quant à l'hypothèse de normalité dans les mesures répétées ANOVA. Plus précisément, je me demande quel type de normalité doit être satisfait exactement. En lisant la littérature et les réponses sur CV, je suis tombé sur trois formulations distinctes de cette hypothèse.

La variable dépendante dans chaque condition (répétée) doit être distribuée normalement.

On dit souvent que rANOVA a les mêmes hypothèses que ANOVA, plus la sphéricité. C'est ce que prétendent les statistiques de Field's Discovering ainsi que l' article de Wikipedia sur le sujet et le texte de Lowry .
Les résidus (différences entre toutes les paires possibles?) Doivent être distribués normalement.

J'ai trouvé cette déclaration dans plusieurs réponses sur CV ( 1 , 2 ). Par analogie de rANOVA avec le test t apparié , cela peut également sembler intuitif.
La normalité multivariée doit être satisfaite.

Wikipédia et cette source le mentionnent. De plus, je sais que rANOVA peut être échangé avec MANOVA, ce qui pourrait mériter cette affirmation.

Ces équivalents sont-ils en quelque sorte? Je sais que la normalité multivariée signifie que toute combinaison linéaire des DV est normalement distribuée, donc 3. inclurait naturellement 2. si je comprends bien ce dernier.

Si ce ne sont pas les mêmes, quelle est la "vraie" hypothèse de la rANOVA? Pouvez-vous fournir une référence?

Il me semble que la première revendication est la plus appuyée. Ce n'est cependant pas conforme aux réponses habituellement fournies ici.

Modèles mixtes linéaires

En raison de l'allusion de @ utobi, je comprends maintenant comment rANOVA peut être reformulé en tant que modèle mixte linéaire. Plus précisément, pour modéliser l'évolution de la pression artérielle avec le temps, je modéliserais la valeur attendue comme : où sont des mesures de la pression artérielle, la pression artérielle moyenne du ème sujet, et comme ème fois que le ème sujet a été mesuré, indiquant que le changement

E [y_{i j}] = a_{i} + b_{i} t_{i j},

$\mathrm{E}\left[y_{ij}\right]=a_{i}+b_i t_{ij},$

y_{i j}

$y_{ij}$

a_{i}

$a_{i}$

i

$i$

t_{i j}

$t_{ij}$

j

$j$

i

$i$

b_{i}

$b_i$ la pression artérielle est également différente d'un sujet à l'autre. Les deux effets sont considérés comme aléatoires, car l'échantillon de sujets n'est qu'un sous-ensemble aléatoire de la population, ce qui présente un intérêt primordial.

Enfin, j'ai essayé de réfléchir à ce que cela signifie pour la normalité, mais sans grand succès. Pour paraphraser McCulloch et Searle (2001, p. 35. Eq. (2.14)):

\begin{aligned} E [y_{i j} | a_{i}] & = a_{i} \\ y_{i j} | a_{i} & \sim i n d e p . N (a_{i}, σ^{2}) \\ a_{i} & \sim i . i . d . N (a, σ_{a}^{2}) \end{aligned}

$\begin{align} \mathrm{E}\left[y_{ij}|a_i\right] &= a_i \\[5pt] y_{ij}|a_i &\sim \mathrm{indep.}\ \mathcal{N}(a_i,\sigma^2) \\[5pt] a_i &\sim \mathrm{i.i.d.}\ \mathcal{N}(a,\sigma_a^2) \end{align}$

Je comprends que cela signifie que

4. Les données de chaque individu doivent être distribuées normalement, mais ce n'est pas raisonnable de tester avec peu de points dans le temps.

Je prends la troisième expression pour signifier que

5. les moyennes des sujets individuels sont normalement distribuées. Notez que ce sont deux autres possibilités distinctes en plus des trois mentionnées ci-dessus.

McCulloch, CE et Searle, SR (2001). Modèles généralisés, linéaires et mixtes . New York: John Wiley & Sons, Inc.

— Fato39
source

juste pour vous donner un indice. Vous pouvez indiquer le modèle rANOVA en termes de modèle mixte linéaire (LMM). Une fois que vous avez un LMM, vous voyez immédiatement l'hypothèse de normalité implicite. Voir ici ( eu.wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html ) pour une théorie des LMM

— utobi

Merci, @utobi, pour la référence que vous avez fournie! En effet, j'ai étudié ses deux premiers chapitres, mais je n'ai pas réussi à trouver la réponse à ma question. Je l'ai mis à jour pour refléter les progrès limités que j'ai réalisés.

— Fato39

Cela me semble être une très bonne question. Je vote pour laisser ouvert.

— gung - Réintègre Monica

Certes, les données de chaque individu doivent être distribuées normalement. Mais si vous regardez ce que vous avez écrit, toutes les données individuelles une fois qu'elles sont dégradées ( est soustrait) auront une moyenne de zéro et la même variance ( ). Vous pouvez donc supposer que toutes les données dégradées proviennent d'une seule distribution normale. Vous pouvez regarder les résidus pour voir dans quelle mesure cette hypothèse est satisfaite.

a_{i}

$a_i$

σ_{a}^{2}

$\sigma_a^2$

— Heteroskedastic Jim

Réponses:

Il s'agit du modèle ANOVA à mesures répétées le plus simple si nous le traitons comme un modèle univarié:

y_{je t} = {une}_{je} + b_{t} + ϵ_{je t}

$y_{it} = a_{i} + b_{t} + \epsilon_{it}$

où représente chaque cas et les moments où nous les avons mesurés (donc les données sont sous forme longue). représente les résultats empilés les uns sur les autres, représente la moyenne de chaque cas, représente la moyenne de chaque point dans le temps et représente les écarts des mesures individuelles du cas et le point de temps signifie. Vous pouvez inclure des facteurs intermédiaires supplémentaires comme prédicteurs dans cette configuration. $i$ $t$ $y_{it}$ $a_{i}$ $b_{t}$ $\epsilon_{it}$

Nous n'avons pas besoin de faire d'hypothèses de distribution sur , car elles peuvent entrer dans le modèle sous forme d'effets fixes, de variables muettes (contrairement à ce que nous faisons avec les modèles mixtes linéaires). Il en va de même pour les nuls de temps. Pour ce modèle, il vous suffit de régresser le résultat sous forme longue par rapport aux variables muettes personne et aux variables muettes temps. L'effet d'intérêt est le temps factice , le test qui teste l'hypothèse nulle selon laquelle est le test principal dans les mesures répétées univariées ANOVA. $a_{i}$ $F$ $b_{1}=...=b_{t}=0$

Quelles sont les hypothèses requises pour que le test se comporte correctement? Celui qui correspond à votre question est: $F$

ϵ_{je t} \sim N (0, σ) ces erreurs sont normalement distribuées et homoscédastiques

$\begin{equation} \epsilon_{it}\sim\mathcal{N}(0,\sigma)\quad\text{these errors are normally distributed and homoskedastic} \end{equation}$

Il existe des hypothèses supplémentaires (plus conséquentes) pour que le test soit valide, car on peut voir que les données ne sont pas indépendantes les unes des autres puisque les individus se répètent sur plusieurs lignes. $F$

Si vous souhaitez traiter les mesures répétées de l'ANOVA comme un modèle multivarié, les hypothèses de normalité peuvent être différentes, et je ne peux pas les développer au-delà de ce que vous et moi avons vu sur Wikipédia.

— Heteroskedastic Jim
source

L'explication de la normalité de l'ANOVA à mesures répétées peut être trouvée ici:

Comprendre les hypothèses ANOVA de mesures répétées pour une interprétation correcte de la sortie SPSS

Vous avez besoin de la normalité des variables dépendantes dans les résidus (cela implique une distribution normale dans tous les groupes, avec une variance commune et une moyenne dépendante du groupe), comme dans la régression.
Comme vous l'avez remarqué, la normalité multivariée implique que toutes les combinaisons linéaires des variables dépendantes sont normalement distribuées, c'est donc un concept plus fort que la normalité des variables uniques ( ). Cependant, je ne suis pas convaincu que cela implique la normalité des résidus ( ), étant donné que les résidus sont également déterminés par des variables indépendantes (groupes, en ANOVA). Je suis d'accord avec vous pour le point : vous parlez essentiellement d'un effet aléatoire au niveau individuel ayant une distribution normale. $3 \rightarrow 1$ $3 \rightarrow 2$ $5$

— Federico Tedeschi
source

Federico, merci pour ta réponse. J'étais au courant de cette explication (voir mon point numéro 2 et le premier lien CV référencé ici). Bien que j'apprécie la qualité des réponses sur CV, je suis arrivé à des réponses différentes (contradictoires?) À ma question lors de la consultation de différentes sources. Je préférerais donc une source qui aborderait de manière explicite ou concluante les nuances que j'ai mentionnées dans mes cinq points ci-dessus.

— Fato39