ANOVA hypothèse normalité / distribution normale des résidus

La page Wikipedia sur ANOVA énumère trois hypothèses , à savoir:

Indépendance des cas - il s'agit d'une hypothèse du modèle qui simplifie l'analyse statistique.
Normalité - les distributions des résidus sont normales.
Égalité (ou "homogénéité") des variances, appelée homoscédasticité ...

Le point d’intérêt ici est la deuxième hypothèse. Plusieurs sources énumèrent l’hypothèse différemment. Certains disent que les données brutes sont normales, d'autres prétendent être des résidus.

Plusieurs questions surgissent:

la normalité et la distribution normale des résidus sont-elles la même personne (d'après Wikipedia, je dirais que la normalité est une propriété et ne concerne pas directement les résidus (mais peut être une propriété de résidus (texte profondément imbriqué entre crochets, bizarre)))?
Si non, quelle hypothèse devrait tenir? Un? Tous les deux?
si l'hypothèse de résidus normalement distribués est la bonne, commettons-nous une grave erreur en ne vérifiant que l'histogramme des valeurs brutes pour la normalité?

— Roman Luštrik
source

Vous pouvez pratiquement ignorer tout ce qui a été dit par ces sources, s’ils prétendent que les données brutes doivent être distribuées normalement. Et qui a dit "nous" ne faisions que vérifier les valeurs brutes avec des histogrammes, de toute façon. Êtes-vous dans l'une de ces classes Six Sigma ???

— DWin

@Andy W: Je viens d'ajouter un lien vers ce qui semble être la section pertinente de l'article de Wikipedia sur ANOVA.

— onestop le

@DWin: blog.markanthonylawson.com/?p=296 (désolé, complètement hors sujet mais je

— n'ai

@ onestop merci. J'ai seulement demandé le lien parce que je suis paresseux et que je ne voulais pas rechercher ANOVA sur wikipedia moi-même, pas parce que c'est essentiel pour la question.

— Andy W

Question connexe ici: que-si-résidus-sont-normalement-distribués-mais-y-n'est pas .

— gung - Rétablir Monica

Réponses:

Supposons qu'il s'agit d'un modèle à effets fixes . (Le conseil ne change pas vraiment pour les modèles à effets aléatoires, cela devient un peu plus compliqué.)

Non, la normalité et la distribution normale des résidus ne sont pas les mêmes . Supposons que vous mesuriez le rendement d'une culture avec et sans application d'engrais. Dans les parcelles sans engrais, le rendement variait de 70 à 130. Dans deux parcelles avec engrais, le rendement variait de 470 à 530. La distribution des résultats est fortement non normale: elle est regroupée à deux endroits liés à l'application d'engrais. Supposons en outre que les rendements moyens sont respectivement de 100 et 500. Ensuite, tous les résidus vont de -30 à +30. Ils peuvent (ou ne peuvent pas) être distribués normalement, mais évidemment, il s'agit d'une distribution complètement différente.
La distribution des résidus a son importance , car ils reflètent la partie aléatoire du modèle. Notez également que les valeurs p sont calculées à partir des statistiques F (ou t) et que celles-ci dépendent des résidus, pas des valeurs d'origine.
S'il y a des effets significatifs dans les données (comme dans cet exemple), vous faites peut- être une erreur "grave" . Vous pourriez, par chance, faire la bonne détermination: en regardant les données brutes, vous obtiendrez un mélange de distributions et cela peut sembler normal (ou non). Le fait est que ce que vous cherchez n’est pas pertinent.

Les valeurs résiduelles d'ANOVA ne doivent pas nécessairement être proches de la normale pour s'adapter au modèle. Cependant, la quasi-normalité des résidus est essentielle pour que les valeurs p calculées à partir de la distribution F aient un sens.

— whuber
source

Je pense qu'il y a des points importants à ajouter: dans une ANOVA, la normalité au sein de chaque groupe (et non dans son ensemble) est équivalente à la normalité des résidus.

— Aniko

@Aniko Pourriez-vous préciser ce que vous entendez par "équivalent" dans votre commentaire? Il est presque tautologique que la normalité au sein d'un groupe soit identique à la normalité des résidus de ce groupe, mais il est faux que la normalité séparée à l'intérieur de chaque groupe implique (ou est impliquée par) la normalité des résidus.

— whuber

Je pensais vraiment au sens tautologique: si les groupes sont normaux, les résidus sont normaux. L'inverse n'est vrai que si l'homoscedascity est ajoutée (comme dans ANOVA). Je ne veux pas plaider en faveur de la vérification des groupes au lieu des résidus, mais je pense que ceci est la raison sous-jacente de la formulation variable des hypothèses.

— Aniko

J'ai remarqué que les personnes effectuant une ANOVA semblaient généralement intéressées par le calcul des valeurs p, d'où l'importance de la normalité des valeurs résiduelles. Existe-t-il des raisons courantes d'adapter un modèle ANOVA si le calcul des valeurs p à partir de la distribution F ne nous intéresse pas? Excuses si cette question est trop large pour un commentaire.

— user1205901

@ user1205901 C'est un très bon point. Les deux utilisations courantes de l'ANOVA qui ne s'appuient pas sur le test F sont (1) un moyen pratique d'obtenir des estimations de l'effet et (2) un élément constitutif du calcul de la variance.

— whuber

L'ANOVA classique unidirectionnelle standard peut être considérée comme une extension du "test T à 2 échantillons" classique à un "test T à n échantillons". Ceci peut être constaté en comparant une ANOVA à une voie avec seulement deux groupes au test t classique à deux échantillons.

Je pense que ce qui vous rend confus, c’est que (selon les hypothèses du modèle), les résidus et les données brutes sont à la fois normalement distribués. Cependant, les données brutes sont constituées de distributions normales avec des moyennes différentes (à moins que tous les effets ne soient exactement les mêmes) mais la même variance. Les résidus, par contre, ont la même distribution normale . Cela vient de la troisième hypothèse d'homoscédasticité.

$Y_{ij}$ $\mu_{j}$ $\sigma^2$ $Y_{ij}=\mu_{j}+\sigma\epsilon_{ij}$ $\epsilon_{ij}$

$\epsilon_{ij}$

$Y_{ij}$

— probabilislogic
source

+1 pour signaler (dans le dernier paragraphe) l'hypothèse d'homoscédasticité.

— whuber

Cela signifie-t-il que si nous avons laissé dire n groupes dépendants à comparer, nous devons vérifier leurs résidus séparément (ce qui donne n groupes de résidus)?

— Stan

$p$ $n_{j}$ $F = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}}$

$SS_{b} = \sum_{j=1}^{p}{n_{j} (M - M_{j}})^{2}$

$SS_{w} = \sum_{j=1}^{p}\sum_{i=1}^{n_{j}}{(y_{ij} - M_{j})^{2}}$

$F$ $F$ $SS_{b} / df_{b}$ $SS_{w} / df_{w}$ $\chi^{2}$ $df_{b}$ $df_{w}$ $SS_{b}$ $SS_{w}$ $0$ $M-M_{j}$ $y_{ij}-M_{j}$

$y_{i(j)} - M_{j}$ $Y = \mu_{j} + \epsilon = \mu + \alpha_{j} + \epsilon$ $y_{i(j)} - M$ $Y = \mu + \epsilon$ $M - M_{j}$

$H_{0}$ $M$ $y_{i(j)} - M_{j}$ $M - M_{j}$

— caracal
source

S S

$SS$

χ^{2}

$\chi^2$

M_{j} = M

$M_j=M$

j

$j$

y_{i j} - M_{j}

$y_{ij}-M_j$

M_{j} - M

$M_j-M$

@onestop Edité pour refléter votre clarification, merci!

— Caracal