Quelle est l'hypothèse nulle d'une MANOVA?

Contexte

Afin d'analyser les différences dans une variable continue entre différents groupes (donnée par une variable catégorielle), on peut effectuer une ANOVA à sens unique. S'il existe plusieurs variables explicatives (catégorielles), on peut effectuer une ANOVA factorielle. Si l'on veut analyser les différences entre les groupes dans plusieurs variables continues (c'est-à-dire plusieurs variables de réponse), il faut effectuer une ANOVA multivariée (MANOVA).

Question

Je comprends à peine comment on peut effectuer un test de type ANOVA sur plusieurs variables de réponse et, plus important encore, je ne comprends pas quelle pourrait être l'hypothèse nulle. Est l'hypothèse nulle:

"Pour chaque variable de réponse, les moyennes de tous les groupes sont égales",

ou est-ce

"Pour au moins une variable de réponse, les moyennes de tous les groupes sont égales",

ou est-ce que est autre chose? $H_0$

hypothesis-testing anova manova

— Remi.b
source

Je ne peux pas dire, demandez-vous également comment fonctionne une ANOVA? Dans le contexte de la discussion sur ce qu'est une erreur standard, j'explique essentiellement l'idée de base derrière une ANOVA ici: comment fonctionne l'erreur standard?

— gung - Rétablir Monica

Aucune de vos deux déclarations. H0de MANOVA est qu'il n'y a pas de différence dans l'espace multivarié . Le cas multivarié est considérablement plus complexe que le cas univarié car nous devons traiter des covariances, pas seulement des variances. Il existe plusieurs façons de formuler les H0-H1hypothèses en MANOVA. Lisez Wikipedia.

— ttnphns

@ttnphns: Pourquoi ni l'un ni l'autre? Le de l'ANOVA est que les moyennes de tous les groupes sont égales. Le de MANOVA est que les moyennes multivariées de tous les groupes sont égales. C'est exactement la variante 1 du PO. Les covariances etc. entrent dans les hypothèses et les calculs de MANOVA, pas l'hypothèse nulle.

H_{0}

$H_0$

H_{0}

$H_0$

— amibe dit Réintégrer Monica

@amoeba, je n'ai pas aimé For each response variable. Pour moi, cela ressemble à (ou je le lis comme) "les tests sont effectués de manière univariée sur chacun" (puis en quelque sorte combinés).

— ttnphns

Réponses:

L'hypothèse nulle d'une ANOVA unidirectionnelle est que les moyennes de tous les groupes sont égales:L'hypothèse nulle d'une MANOVA unidirectionnelle est que les moyennes [multivariées] de tous les groupes sont égales:Cela revient à dire que les moyennes sont égales pour chaque variable de réponse, c'est-à-dire que votre première option est correcte . $H_0$

H_{0} : μ_{1} = μ_{2} = . . . = μ_{k} .

$H_0: \mu_1 = \mu_2 = ... = \mu_k.$

H_{0}

$H_0$

H_{0} : μ_{1} = μ_{2} = . . . = μ_{k} .

$H_0: \boldsymbol \mu_1 = \boldsymbol \mu_2 = ... = \boldsymbol \mu_k.$

Dans les deux cas, l'hypothèse alternative est la négation du nul. Dans les deux cas, les hypothèses sont (a) les distributions gaussiennes au sein du groupe et (b) les variances égales (pour l'ANOVA) / les matrices de covariance (pour la MANOVA) entre les groupes. $H_1$

Différence entre MANOVA et ANOVA

Cela peut sembler un peu déroutant: l'hypothèse nulle de MANOVA est exactement la même que la combinaison d'hypothèses nulles pour une collection d'ANOVA univariées, mais en même temps, nous savons que faire MANOVA n'est pas équivalent à faire des ANOVA univariées et puis en quelque sorte " combiner "les résultats (on pourrait trouver différentes façons de combiner). Pourquoi pas?

La réponse est que l'exécution de toutes les ANOVA univariées, même si elle testerait la même hypothèse nulle, aura moins de puissance. Voir ma réponse ici pour une illustration: Comment la MANOVA peut-elle signaler une différence significative lorsqu'aucune des ANOVA univariées n'atteint la signification? La méthode naïve de «combinaison» (rejeter le null global si au moins une ANOVA rejette le null) entraînerait également une énorme inflation du taux d'erreur de type I; mais même si l'on choisit une façon intelligente de "combiner" pour maintenir le taux d'erreur correct, on perdrait en puissance.

Fonctionnement des tests

ANOVA décompose le total de somme de carrés en somme des carrés entre les groupes et la somme des carrés intra-groupe , de sorte que . Il calcule alors le rapport . Dans l'hypothèse nulle, ce ratio devrait être petit (environ ); on peut déterminer la distribution exacte de ce rapport attendue sous l'hypothèse nulle (elle dépendra de et du nombre de groupes). La comparaison de la valeur observée avec cette distribution donne une valeur p. $T$ $B$ $W$ $T=B+W$ $B/W$ $1$ $n$ $B/W$

MANOVA décompose la matrice dispersion totale dans la matrice dispersion entre les groupes et la matrice de dispersion intra-groupe , de sorte que . Il calcule alors la matrice . Sous l'hypothèse nulle, cette matrice devrait être "petite" (autour de ); mais comment quantifier sa "petite" taille? MANOVA examine les valeurs propres de cette matrice (elles sont toutes positives). Encore une fois, dans l'hypothèse nulle, ces valeurs propres devraient être "petites" (tout autour de $\mathbf T$ $\mathbf B$ $\mathbf W$ $\mathbf T = \mathbf B + \mathbf W$ $\mathbf W^{-1} \mathbf B$ $\mathbf{I}$ $\lambda_i$ $1$ ). Mais pour calculer une valeur de p, nous avons besoin d'un nombre (appelé "statistique") afin de pouvoir le comparer avec sa distribution attendue sous le nul. Il y a plusieurs façons de procéder: prendre la somme de toutes les valeurs propres ; prendre la valeur propre maximale , etc. Dans chaque cas, ce nombre est comparé à la distribution de cette quantité attendue sous la valeur nulle, résultant en une valeur p. $\sum \lambda_i$ $\max\{\lambda_i\}$

Différents choix de la statistique de test conduisent à des valeurs de p légèrement différentes, mais il est important de réaliser que, dans chaque cas, la même hypothèse nulle est testée.

— amibe dit réintégrer Monica
source

De plus, si vous ne corrigez pas pour les tests multiples, l'approche des ANOVAs univariées produira également une inflation d'erreur de type I.

— gung - Rétablir Monica

@gung: Oui, c'est vrai aussi. Cependant, on peut être plus intelligent dans la "combinaison" que de simplement rejeter le null dès qu'au moins une des ANOVA rejette le null. Mon point était que même si on essaye d'être intelligent en "combinant", on perdra encore en puissance par rapport à MANOVA (même si on parvient à maintenir la taille du test sans gonfler le taux d'erreur).

— amibe dit Réintégrer Monica

Mais ce «pouvoir» n'est-il pas directement lié à la notion de covariance? La morale est qu'avec un (série de) test univarié, nous testons uniquement l'effet marginal qui est SSdifference/SSerrorscalaire. En MANOVA, l'effet multivarié est SSCPerror^(-1)SSCPdifferencematriciel (total des covariances et intra-groupes pris en compte). Mais comme il contient plusieurs valeurs propres qui pourraient être "combinées" non pas d'une manière unique dans une statistique de test, plusieurs hypothèses alternatives existent. Plus de puissance - plus de complexité théorique.

— ttnphns

@ttnphns, oui, tout cela est correct, mais je pense que cela ne change pas le fait que l'hypothèse nulle est ce que j'ai écrit (et c'est de cela qu'il s'agissait). Quelle que soit la statistique de test utilisée (Wilks / Roy / Pillai-Bartlett / Lawley-Hotelling), ils essaient de tester la même hypothèse nulle. Je pourrais développer ma réponse plus tard pour en discuter plus en détail.

— amibe dit Réintégrer Monica

@gung m'a demandé de faire un carillon (je ne sais pas pourquoi ... j'ai enseigné la MANOVA il y a 7 ans, et je ne l'ai jamais appliqué) - Je dirais que l'amibe a raison de dire que est une négation complète du null , qui est un hyperespace dimensionnel dans l' espace dimensionnel des paramètres (si est la dimension que personne n'a pris la peine de définir jusqu'à présent) . Et c'est l'option 1 donnée par l'OP. L'option 2 est beaucoup plus difficile à tester.

H_{1}

$H_1$

H_{0} : μ_{group 1} = \dots = μ_{group k}

$H_0: \mu_{\mbox{group }1} = \ldots = \mu_{\mbox{group }k}$

p

$p$

k p

$kp$

p

$p$

— StasK

C'est le premier.

Cependant, la façon dont il le fait n'est pas littéralement de comparer tour à tour les moyennes de chacune des variables d'origine. Au lieu de cela, les variables de réponse sont transformées linéairement d'une manière très similaire à l' analyse des composantes principales . (Il existe ici un excellent fil conducteur sur l'ACP: donner un sens à l'analyse des composants principaux, aux vecteurs propres et aux valeurs propres .) La différence est que l'ACP oriente vos axes de manière à s'aligner sur les directions de variation maximale, tandis que MANOVA fait pivoter vos axes dans les directions qui maximiser la séparation de vos groupes.

Pour être clair cependant, aucun des tests associés à une MANOVA ne teste tous les moyens l'un après l'autre dans un sens direct, soit avec les moyens dans l'espace d'origine ou dans l'espace transformé. Il existe plusieurs statistiques de test différentes qui fonctionnent chacune de manière légèrement différente, néanmoins elles ont tendance à fonctionner sur les valeurs propres de la décomposition qui transforme l'espace. Mais en ce qui concerne la nature de l'hypothèse nulle, c'est que tous les moyens de tous les groupes sont les mêmes sur chaque variable de réponse, non pas qu'ils peuvent différer sur certaines variables mais sont les mêmes sur au moins une.

— gung - Rétablir Monica
source

Ooh ... Donc Manova fait une analyse discriminante linéaire (pour maximiser la distance entre la moyenne des groupes) et ensuite, elle exécute une anova standard en utilisant le premier axe comme variable de réponse? Ainsi, est "les moyens - en termes de PC1 - de tous les groupes sont les mêmes". Est-ce correct?

H o

$Ho$

— Remi.b

Il existe plusieurs tests possibles. Tester uniquement le 1er axe utilise essentiellement la plus grande racine de Roy comme test. Ce sera souvent le test le plus puissant, mais il est également plus limité. Je suppose qu'il y a une discussion en cours sur le test qui est le «meilleur».

— gung - Réintégrer Monica

Je suppose que nous utilisons MANOVA plutôt que plusieurs ANOVA afin d'éviter de multiples problèmes de test. Mais si, en faisant une MANOVA, nous faisons juste une ANOVA sur PC1 d'un LDR , alors nous avons encore un problème de test multiple à considérer lors de l'examen de la Pvalue. Est-ce correct? (J'espère que cela a plus de sens. J'ai supprimé mon commentaire peu clair précédent)

— Remi.b

C'est un point perspicace, mais il y a deux problèmes: 1) les axes sont maintenant orthogonaux, et cela peut changer les problèmes avec plusieurs tests; 2) les distributions d'échantillonnage des statistiques de test MANOVA tiennent compte des multiples axes.

— gung - Réintégrer Monica

@ Remi.b: Ce sont de bonnes questions, mais juste pour être clair: MANOVA n'est pas équivalent à une ANOVA sur le premier axe discriminant de LDA! Voir ici pour une relation entre MANOVA et LDA: Comment MANOVA est-elle liée à LDA?

— amibe dit Réintégrer Monica