Quel est le lien entre MANOVA et LDA?


18

À plusieurs endroits, j'ai vu une affirmation selon laquelle la MANOVA est comme l'ANOVA plus l'analyse discriminante linéaire (LDA), mais elle a toujours été faite en agitant la main. Je voudrais savoir ce que cela signifie exactement .

J'ai trouvé divers manuels décrivant tous les détails des calculs MANOVA, mais il semble très difficile de trouver une bonne discussion générale (sans parler de photos ) accessible à quelqu'un qui n'est pas statisticien.


2
Mes propres comptes locaux de LDA relative ANOVA et MANOVA sont ceci , ceci . Peut-être qu'ils agitent la main, mais ils abordent votre sujet dans une certaine mesure. Le dicton clé est que "LDA est MANOVA submergé dans une structure latente". MANOVA est une installation de test d'hypothèses très riche; il peut entre autres analyser la structure latente des différences; cette analyse inclut LDA.
ttnphns

1
@ttnphns, je crains que mon commentaire précédent n'ait pas été livré (j'ai oublié de mettre votre nom d'utilisateur), alors laissez-moi répéter: Wow, merci beaucoup, vos réponses liées semblent être très liées à ma question et je dois les avoir manquées dans ma recherche avant de poster. Il me faudra un certain temps pour les digérer et je reviendrai peut-être vers vous après cela, mais peut-être pourriez-vous déjà me diriger vers des articles / livres couvrant ces sujets? J'aime voir une discussion détaillée de ce genre de choses dans le style de vos réponses liées.
amibe dit Réintégrer Monica le

Un seul compte ancien et classique webia.lip6.fr/~amini/Cours/MASTER_M2_IAD/TADTI/HarryGlahn.pdf . BTW Je ne l'ai pas lu moi-même jusqu'à présent. Un autre article connexe dl.acm.org/citation.cfm?id=1890259 .
ttnphns

@ttnphns: Merci. J'ai moi-même écrit une réponse à ma question, en fournissant essentiellement des illustrations et un exemple spécifique à votre excellente réponse liée sur LDA / MANOVA. Je pense qu'ils se complètent bien.
amibe dit Réintégrer Monica le

Réponses:


21

En un mot

MANOVA unidirectionnelle et LDA commencent par décomposer la matrice de dispersion totale en matrice de dispersion intra-classe et matrice de dispersion inter-classes , de telle sorte que . On notera que ceci est tout à fait analogue à la façon dont une ANOVA à sens unique se décompose somme des carrés totale en sommes des carrés intra-classe et entre-classe: . En ANOVA, un rapport est ensuite calculé et utilisé pour trouver la valeur de p: plus ce rapport est grand, plus la valeur de p est petite. MANOVA et LDA composent une quantité multivariée analogue .W B T = W + B T T = B + W B / W W - 1 BTWBT=W+BTT=B+WB/WW1B

À partir d'ici, ils sont différents. Le seul but de MANOVA est de tester si les moyens de tous les groupes sont les mêmes; cette hypothèse nulle signifierait que devrait être similaire en taille à . Ainsi, MANOVA effectue une composition propre de et trouve ses valeurs propres . L'idée est maintenant de tester s'ils sont assez grands pour rejeter le null. Il existe quatre façons courantes de former une statistique scalaire à partir de l'ensemble des valeurs propres . Une façon consiste à prendre la somme de toutes les valeurs propres. Une autre façon consiste à prendre la valeur propre maximale. Dans chaque cas, si la statistique choisie est suffisamment grande, l'hypothèse nulle est rejetée.W W - 1 B λ i λ iBWW1Bλiλi

En revanche, LDA effectue la composition propre de et examine les vecteurs propres (et non les valeurs propres). Ces vecteurs propres définissent des directions dans l'espace variable et sont appelés axes discriminants . La projection des données sur le premier axe discriminant présente la séparation de classe la plus élevée (mesurée en ); sur le deuxième - deuxième plus haut; etc. Lorsque LDA est utilisé pour la réduction de dimensionnalité, les données peuvent être projetées, par exemple sur les deux premiers axes, et les autres sont ignorés. N / BW1BB/W

Voir aussi une excellente réponse de @ttnphns dans un autre fil qui couvre presque le même terrain.

Exemple

Considérons un cas unidirectionnel avec variables dépendantes et groupes d'observations (c'est-à-dire un facteur à trois niveaux). Je vais prendre le jeu de données bien connu de Fisher's Iris et ne considérer que la longueur et la largeur du sépale (pour le rendre bidimensionnel). Voici le nuage de points:k = 3M=2k=3

Diagramme de dispersion de Fisher Iris

Nous pouvons commencer par calculer séparément les ANOVA avec la longueur / largeur des sépales. Imaginez des points de données projetés verticalement ou horizontalement sur les axes x et y, et une ANOVA unidirectionnelle effectuée pour tester si trois groupes ont les mêmes moyens. Nous obtenons et pour la longueur du sépale, et et pour la largeur du sépale. D'accord, donc mon exemple est assez mauvais car trois groupes sont significativement différents avec des valeurs de p ridicules sur les deux mesures, mais je m'en tiendrai quand même.p = 10 - 31 F 2 , 147 = 49 p = 10 - 17F2,147=119p=1031F2,147=49p=1017

Nous pouvons maintenant exécuter LDA pour trouver un axe qui sépare au maximum trois clusters. Comme décrit ci-dessus, nous calculons la matrice de dispersion complète , la matrice de dispersion intra-classe et la matrice de dispersion inter-classe et trouvons vecteurs propres de . Je peux tracer les deux vecteurs propres sur le même nuage de points:W B = T - W W - 1 BTWB=TWW1B

Fisher Iris LDA

Les lignes pointillées sont des axes discriminants. Je les ai tracées avec des longueurs arbitraires, mais l'axe le plus long montre le vecteur propre avec une valeur propre plus grande (4.1) et le plus court --- celui avec une valeur propre plus petite (0.02). Notez qu'ils ne sont pas orthogonaux, mais les mathématiques de LDA garantissent que les projections sur ces axes ont une corrélation nulle.

Si nous projetons maintenant nos données sur le premier axe discriminant (le plus long) puis exécutons l'ANOVA, nous obtenons et , ce qui est inférieur à ce qui était auparavant, et est la valeur la plus basse possible parmi toutes les linéaires projections (c'était tout l'intérêt de la LDA). La projection sur le deuxième axe ne donne que .p = 10 - 53 p = 10 - 5F=305p=1053p=105

Si nous exécutons MANOVA sur les mêmes données, nous calculons la même matrice et examinons ses valeurs propres afin de calculer la valeur de p. Dans ce cas, la plus grande valeur propre est égale à 4,1, ce qui est égal à pour ANOVA le long du premier discriminant (en effet, , où est le nombre total de points de données et est le nombre de groupes). B / WF=B / W(N-k) / (k-1)=4,1147 / deux=305N=150k=3W1BB/WF=B/W(Nk)/(k1)=4.1147/2=305N=150k=3

Il existe plusieurs tests statistiques couramment utilisés qui calculent la valeur de p à partir du spectre électronique (dans ce cas, et ) et donnent des résultats légèrement différents. MATLAB me donne le test de Wilks, qui rapporte . Notez que cette valeur est inférieure à ce que nous avions auparavant avec n'importe quelle ANOVA, et l'intuition ici est que la valeur de p de MANOVA "combine" deux valeurs de p obtenues avec des ANOVA sur deux axes discriminants.λ1=4.1λ2=0.02p=1055

Est-il possible d'obtenir une situation inverse: une valeur de p plus élevée avec MANOVA? Oui, ça l'est. Pour cela, nous avons besoin d'une situation où un seul axe de discrimination donne un significatif , et le second ne discrimine pas du tout. J'ai modifié le jeu de données ci-dessus en ajoutant sept points de coordonnées à la classe "verte" (le gros point vert représente ces sept points identiques):F(8,4)

Fisher Iris LDA modifié

Le deuxième axe discriminant a disparu: sa valeur propre est presque nulle. Les ANOVA sur deux axes discriminants donnent et . Mais maintenant, MANOVA ne rapporte que , ce qui est un peu plus élevé que ANOVA. L'intuition derrière cela est (je crois) que l'augmentation de la valeur de p de MANOVA explique le fait que nous avons ajusté l'axe discriminant pour obtenir la valeur minimale possible et corrige d'éventuels faux positifs. Plus formellement, on dirait que MANOVA consomme plus de degrés de liberté. Imaginez qu'il y ait 100 variables, et seulement le long de directions on obtientp=1055p=0.26p=10545p0.05importance; il s'agit essentiellement de tests multiples et ces cinq cas sont de faux positifs, donc MANOVA en tiendra compte et signalera un global non significatif .p

MANOVA vs LDA comme apprentissage machine vs statistiques

Cela me semble maintenant l'un des cas exemplaires de la façon dont différentes communautés d'apprentissage automatique et communauté de statistiques abordent la même chose. Chaque manuel sur l'apprentissage automatique couvre LDA, montre de belles images, etc., mais il ne mentionnerait même pas MANOVA (par exemple Bishop , Hastie et Murphy ). Probablement parce que les gens s'y intéressent davantage à la précision de la classification LDA (qui correspond à peu près à la taille de l'effet) et n'ont aucun intérêt à la signification statistique de la différence de groupe. D'un autre côté, les manuels sur l'analyse multivariée discuteraient de MANOVA ad nauseam, fourniraient de nombreuses données tabulées (arrrgh) mais mentionneraient rarement LDA et montreraient encore plus rarement des graphiques (par exempleAnderson ou Harris ; cependant, Rencher & Christensen le font et Huberty & Olejnik est même appelé "MANOVA et analyse discriminante").

MANOVA factorielle

La MANOVA factorielle est beaucoup plus déroutante, mais intéressante à considérer car elle diffère de la LDA en ce sens que la "LDA factorielle" n'existe pas vraiment, et la MANOVA factorielle ne correspond directement à aucune "LDA habituelle".

Envisager une MANOVA bidirectionnelle équilibrée avec deux facteurs (ou variables indépendantes, IV). Un facteur (facteur A) a trois niveaux, et un autre facteur (facteur B) a deux niveaux, ce qui fait "cellules" dans la conception expérimentale (en utilisant la terminologie ANOVA). Par souci de simplicité, je ne considérerai que deux variables dépendantes (DV):32=6

MANOVA factorielle

Sur cette figure, les six «cellules» (je les appellerai également «groupes» ou «classes») sont bien séparées, ce qui, bien sûr, se produit rarement dans la pratique. Notez qu'il est évident qu'il y a des effets principaux significatifs des deux facteurs ici, et aussi un effet d'interaction significatif (parce que le groupe supérieur droit est décalé vers la droite; si je le déplaçais vers sa position de "grille", alors il n'y aurait pas effet d'interaction).

Comment fonctionnent les calculs MANOVA dans ce cas?

Tout d' abord, MANOVA calcule mis en commun matrice de dispersion au sein de la classe . Mais la matrice de dispersion entre classes dépend de l'effet que nous testons. Considérons la matrice de dispersion entre classes pour le facteur A. Pour le calculer, nous trouvons la moyenne globale (représentée sur la figure par une étoile) et les moyennes conditionnelles aux niveaux du facteur A (représentés sur la figure par trois croix) . Nous calculons ensuite la dispersion de ces moyennes conditionnelles (pondérées par le nombre de points de données à chaque niveau de A) par rapport à la moyenne globale, pour arriver à . Nous pouvons maintenant considérer une matrice , calculer sa composition numérique et exécuter des tests de signification MANOVA basés sur les valeurs propres.WBABAW1BA

Pour le facteur B, il y aura une autre matrice de dispersion entre classes , et de manière analogue (un peu plus compliquée, mais simple), il y aura encore une autre matrice de dispersion entre classes pour l'effet d'interaction, de sorte qu'à la fin, la matrice de dispersion totale est décomposée en un [Notez que cette décomposition ne fonctionne que pour un jeu de données équilibré avec le même nombre de points de données dans chaque cluster. Pour un ensemble de données déséquilibré, ne peut pas être décomposé de manière unique en une somme de trois contributions de facteurs car les facteurs ne sont plus orthogonaux; ceci est similaire à la discussion des SS de type I / II / III dans l'ANOVA.]B A B T = B A + B B + B A B + W . BBBBAB

T=BA+BB+BAB+W.
B

Maintenant, notre principale question ici est de savoir comment MANOVA correspond à LDA. Il n'y a pas de "LDA factorielle". Considérons le facteur A. Si nous voulions exécuter LDA pour classer les niveaux du facteur A (en oubliant le facteur B dans son ensemble), nous aurions la même matrice entre les classes , mais une matrice de dispersion intra-classe différente (pensez à fusionner deux petits ellipsoïdes à chaque niveau du facteur A sur ma figure ci-dessus). Il en va de même pour d'autres facteurs. Il n'y a donc pas de "LDA simple" qui corresponde directement aux trois tests que MANOVA exécute dans ce cas.W A = T - B ABAWA=TBA

Cependant, bien sûr, rien ne nous empêche de regarder les vecteurs propres de , et de les appeler "axes discriminants" du facteur A en MANOVA.W1BA


+1, c'était un bon compte rendu. J'ai changé B^-1 Wpour W^-1 B. Votre image avec des discriminants comme axes est similaire à ma propre intrigue , je crois que vous avez utilisé la même approche "rotation non orthogonale selon les vecteurs propres normalisés".
ttnphns

J'ai trouvé un peu flou MANOVA accounts for the fact that we fitted the discriminant axis to get the minimum possible value and corrects for possible false positive. MANOVA bien sûr ne sait pas que nous faisons de l'ADL. MANOVA consomme simplement plus de df que ANOVA, car il s'agit d'un test bidimensionnel, c'est pourquoi la puissance de la valeur p doit être de -54 au lieu de -55.
ttnphns

Je doute que cela devrait parler en termes de valeurs p. Au lieu de cela, le point clé selon lequel MANOVA analyse la même matrice W^-1 Bque le LDA. LDA en construit des variables latentes (les discriminants). MANOVA ne fait pas; cependant, il étudie la matrice ci-dessus de manière plus complète, en calculant diverses statistiques (telles que la trace de Pillai, la trace de Hotteling) pour en baser les tests.
ttnphns

L'intrigue qui sera la métaphore de MANOVA (et je pense que vous voudrez peut-être l'ajouter à votre réponse) contrairement à LDA (votre 2ème photo) serait l'intrigue sur laquelle les 3 centroïdes sont connectés au grand centroïde par des lignes en pointillés .
ttnphns

Enfin, je ne pense pas que vous ayez une bonne pondération pour la différence de statistiques et d'apprentissage automatique. J'ai appris l'analyse des données statistiques avant d'entendre un mot machine learningla première fois. Et les textes que j'ai lus ont ensuite discuté de LDA, tout comme MANOVA.
ttnphns
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.