Comment visualiser ce que fait ANOVA?


60

De quelle manière (moyens?) Existe-t-il pour expliquer visuellement ce qu'est l'ANOVA?

Toute référence, lien (s) (packages R?) Sera la bienvenue.


Dans son blog "Les efforts d'un psychologue en programmation statistique", Kristoffer Magnusson donne un excellent exemple de visualisation unidirectionnelle anova à l'aide de D3.js rpsychologist.com/d3-one-way-anova/#comment-1891
Epifunky le

J'ai trouvé cette belle visualisation de ce qu'est l'analyse de la variance. Ce n'est pas aussi précis que les réponses précédentes, mais vous pouvez jouer de manière interactive avec la visualisation. J'ai trouvé ça assez intéressant: students.brown.edu/seeing-theory/regression/index.html#third
Mike

Réponses:


51

Personnellement, j'aime bien introduire la régression linéaire et l'ANOVA en montrant que c'est tout à fait pareil et que les modèles linéaires constituent une partition de la variance totale. partie (appelée le «résiduel»). J'utilise généralement l'illustration suivante (ligne grise pour la variabilité totale, lignes noires pour la variabilité spécifique à un groupe ou à un individu):

texte alternatif

Je aime aussi les heplots R paquet, de Michael et John Fox amical, mais aussi voir tests visuels dans Hypothesis multivariée Modèles linéaires: Les heplots Package pour R .

Les méthodes standard pour expliquer ce que fait réellement ANOVA, en particulier dans le modèle de modèle linéaire, sont très bien expliquées dans les réponses Plane à des questions complexes de Christensen, mais il existe très peu d'illustrations. Méthodes statistiques de Saville et Wood : L'approche géométrique a quelques exemples, mais principalement sur la régression. Dans Conception et analyse des expériences de Montgomery , principalement axée sur DoE, il y a des illustrations que j'aime bien, mais voir ci-dessous.

texte alternatif

(Ce sont les miens :-)

Mais je pense que vous devez rechercher des manuels sur les modèles linéaires si vous voulez voir comment la somme de carrés, d'erreurs, etc. se traduit par un espace vectoriel, comme indiqué sur Wikipedia . Estimation et inférence en économétrie de Davidson et MacKinnon semblent avoir de jolies illustrations (le premier chapitre couvre en fait la géométrie OLS), mais je ne fais que parcourir la traduction française (disponible ici ). La géométrie de la régression linéaire contient également de bonnes illustrations.

Modifier :

Ah, et je viens de me souvenir de cet article de Robert Pruzek, Un nouveau graphique pour l’ANOVA à sens unique .

Modifier 2

Et maintenant, le paquetage granova (mentionné par @ gd047 et associé au document ci-dessus) a été porté sur ggplot, voir granovaGG avec une illustration pour une ANOVA à un facteur ci-dessous.

entrez la description de l'image ici


La première illustration est-elle réalisée avec R?
George Dontas

@ gd047 Oui. Devrait avoir le code source laid quelque part si vous voulez. Le second est fait à Metapost.
chl

3
@ gd047 Très bien, comme d'habitude c'est toujours quand on cherche un vieux code qu'on ne peut pas le trouver (malgré mes meilleurs efforts avec grep / find), alors j'ai récrit un script R rapide (toujours aussi moche) pour ça. J'ai également mis un exemple du code MP .
chl

La géométrie du lien de régression linéaire semble avoir pourri, malheureusement.
Silverfish

23

Que diriez-vous quelque chose comme ça? texte alternatif

D'après Crawley (2005). Statistiques. Une introduction utilisant R: Wiley.


1
(+1) Je me rappelle plot.design()(mais le vôtre dans une version améliorée :-)
chl

C'est le meilleur.
Curieux

13

Merci pour votre excellente réponse jusqu'à présent. Bien qu’ils aient été très instructifs, j’ai senti que les utiliser pour le cours que j’enseigne actuellement (enfin, je vais en parler) sera trop pour mes étudiants. (J'aide à enseigner le cours BioStatistics aux étudiants de diplômes supérieurs en sciences de la médecine)

Par conséquent, j'ai fini par créer deux images (toutes deux basées sur la simulation) qui, à mon avis, constituent un exemple utile pour expliquer ANOVA.

Je serais heureux de lire des commentaires ou des suggestions pour les améliorer.

La première image montre une simulation de 30 points de données, séparés en 3 tracés (montrant comment le MST = Var est séparé des données qui créent le MSB et le MSW:

  • Le graphique de gauche montre un diagramme de dispersion des données par groupe.
  • La partie centrale montre à quoi ressemblent les données que nous allons utiliser pour MSB.
  • La bonne image montre à quoi ressemblent les données que nous allons utiliser pour MSW.

texte alternatif

La deuxième image montre 4 graphiques, chacun correspondant à une combinaison différente de variance et d’espérance pour les groupes,

  • La première rangée de parcelles concerne la variance faible, tandis que la deuxième rangée représente la variance la plus élevée.
  • La première colonne de graphiques correspond aux attentes égales entre les groupes, tandis que la deuxième colonne présente les groupes ayant des attentes (très) différentes.

texte alternatif


2
H0: μ1=μ2==μk H1:  i,j | μiμjH1¬ H0). Si vous parvenez à traduire ces idées dans un affichage graphique - ce qui semble être le cas ici -, alors je pense que vous avez presque terminé.
chl

Bonjour chl, merci pour vos commentaires positifs (et pour votre réponse détaillée précédente)! Je pense que certains des plus grands massages à domicile que j'ai obtenus en préparant le matériel de cette classe sont les suivants: 1) Comment décrire la transformation des données d'origine afin d'obtenir les mesures de variance MSB et MSW. 2) En quoi la statistique de test du MSB / MSW est en réalité un test unilatéral (et non bilatéral) où le H0 correspond au MSB <= MSW. Enfin, j'ai juste pensé à noter qu'il est vrai que SSW = SST-SSB (mais je ne vois pas en quoi cela est vrai pour MSW = MST-MSB).
Tal Galili

1
yij=μ+αi+εijyij=μi+εijyij=yi¯+εij=y¯+(y¯iy¯)+(yijy¯i)(yijy¯)=(y¯iy¯)+(yijy¯i)

12

Puisque nous rassemblons certains types de graphes sympathiques dans cet article, en voici un autre que j'ai récemment découvert et qui peut vous aider à comprendre le fonctionnement de l'ANOVA et la génération de la statistique F. Le graphique a été créé à l'aide du paquetage granova dans R. texte alternatif


2
(+1) J'ai donné un lien vers l'article de Robert Pruzek, mais je ne savais pas qu'il était disponible dans R.
chl


6

Excellente question. Vous savez, je me suis battu avec la tête pendant longtemps pour analyser l'ANOVA. Je me retrouve toujours à revenir à l'intuition «entre versus intérieur» et j'ai toujours essayé d'imaginer à quoi cela ressemblerait dans ma tête. Je suis heureux que cette question ait été soulevée et j'ai été surpris par la diversité des approches proposées dans les réponses ci-dessus.

En tout cas, depuis longtemps (même des années), j’ai eu envie de rassembler plusieurs parcelles au même endroit où je pouvais voir simultanément ce qui se passait dans différentes directions: 1) à quel point les populations sont éloignées , 2) comment Les données sont très éloignées les unes des autres, 3) quelle est la différence entre ces chiffres et 4) comment se comparent les distributions F centrale et non centrale ?

Dans un monde vraiment formidable , je pouvais même jouer avec des curseurs pour voir comment la taille de l'échantillon change les choses.

Donc j'ai joué avec la manipulatecommande dans RStudio , et vache sacrée, ça marche! Voici l'une des parcelles, un instantané, vraiment:

visualizeANOVA

Si vous avez RStudio, vous pouvez obtenir le code pour faire le tracé ci-dessus (curseurs et tous)! sur Github ici .

Après avoir joué avec cela pendant un certain temps, je suis surpris de voir à quel point la statistique F distingue les groupes, même pour des échantillons de taille modérément petite. Quand je regarde les populations, elles ne sont vraiment pas si éloignées (à mes yeux), pourtant, la barre "intérieure" est systématiquement réduite à néant par la barre "entre". Apprenez quelque chose tous les jours, je suppose.


3

Pour illustrer ce qui se passe avec l'ANOVA unidirectionnelle, j'ai parfois utilisé une applet proposée par les auteurs de "Introduction à la pratique des statistiques", qui permet aux étudiants de jouer avec les variances intra et inter et d'observer leur effet sur la statistique F . Voici le lien (l'applet est le dernier sur la page). Exemple de capture d'écran:

entrez la description de l'image ici

L'utilisateur contrôle le curseur supérieur en faisant varier les étendues verticales des trois groupes de données. Le point rouge en bas se déplace le long du graphique des valeurs p, tandis que la statistique F indiquée ci-dessous est mise à jour.


2

Il semble que le navire a déjà navigué en termes de réponse, mais je pense que s’il s’agit d’un cours d’introduction, la plupart des présentations proposées ici seront trop difficiles à comprendre pour les étudiants en début d’initiation ... ou tout au moins aussi. difficile à saisir sans un affichage introductif qui fournit une explication très simplifiée de la variance de partitionnement. Montrez-leur comment le total de la SST augmente avec le nombre de sujets. Puis, après avoir montré le gonflement de plusieurs sujets (peut-être en ajoutant un dans chaque groupe plusieurs fois), expliquez que SST = SSB + SSW (bien que je préfère l'appeler dès le départ parce que cela évite la confusion lorsque vous passez au test de sujets à l'intérieur IMO ). Ensuite, montrez-leur une représentation visuelle du partitionnement de la variance, par exemple une grande couleur carrée codée de manière à ce que vous puissiez voir comment SST est composé de SSB et SSW. Ensuite,


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.