De quelle manière (moyens?) Existe-t-il pour expliquer visuellement ce qu'est l'ANOVA?
Toute référence, lien (s) (packages R?) Sera la bienvenue.
De quelle manière (moyens?) Existe-t-il pour expliquer visuellement ce qu'est l'ANOVA?
Toute référence, lien (s) (packages R?) Sera la bienvenue.
Réponses:
Personnellement, j'aime bien introduire la régression linéaire et l'ANOVA en montrant que c'est tout à fait pareil et que les modèles linéaires constituent une partition de la variance totale. partie (appelée le «résiduel»). J'utilise généralement l'illustration suivante (ligne grise pour la variabilité totale, lignes noires pour la variabilité spécifique à un groupe ou à un individu):
Je aime aussi les heplots R paquet, de Michael et John Fox amical, mais aussi voir tests visuels dans Hypothesis multivariée Modèles linéaires: Les heplots Package pour R .
Les méthodes standard pour expliquer ce que fait réellement ANOVA, en particulier dans le modèle de modèle linéaire, sont très bien expliquées dans les réponses Plane à des questions complexes de Christensen, mais il existe très peu d'illustrations. Méthodes statistiques de Saville et Wood : L'approche géométrique a quelques exemples, mais principalement sur la régression. Dans Conception et analyse des expériences de Montgomery , principalement axée sur DoE, il y a des illustrations que j'aime bien, mais voir ci-dessous.
(Ce sont les miens :-)
Mais je pense que vous devez rechercher des manuels sur les modèles linéaires si vous voulez voir comment la somme de carrés, d'erreurs, etc. se traduit par un espace vectoriel, comme indiqué sur Wikipedia . Estimation et inférence en économétrie de Davidson et MacKinnon semblent avoir de jolies illustrations (le premier chapitre couvre en fait la géométrie OLS), mais je ne fais que parcourir la traduction française (disponible ici ). La géométrie de la régression linéaire contient également de bonnes illustrations.
Modifier :
Ah, et je viens de me souvenir de cet article de Robert Pruzek, Un nouveau graphique pour l’ANOVA à sens unique .
Modifier 2
Et maintenant, le paquetage granova (mentionné par @ gd047 et associé au document ci-dessus) a été porté sur ggplot, voir granovaGG avec une illustration pour une ANOVA à un facteur ci-dessous.
Merci pour votre excellente réponse jusqu'à présent. Bien qu’ils aient été très instructifs, j’ai senti que les utiliser pour le cours que j’enseigne actuellement (enfin, je vais en parler) sera trop pour mes étudiants. (J'aide à enseigner le cours BioStatistics aux étudiants de diplômes supérieurs en sciences de la médecine)
Par conséquent, j'ai fini par créer deux images (toutes deux basées sur la simulation) qui, à mon avis, constituent un exemple utile pour expliquer ANOVA.
Je serais heureux de lire des commentaires ou des suggestions pour les améliorer.
La première image montre une simulation de 30 points de données, séparés en 3 tracés (montrant comment le MST = Var est séparé des données qui créent le MSB et le MSW:
La deuxième image montre 4 graphiques, chacun correspondant à une combinaison différente de variance et d’espérance pour les groupes,
Puisque nous rassemblons certains types de graphes sympathiques dans cet article, en voici un autre que j'ai récemment découvert et qui peut vous aider à comprendre le fonctionnement de l'ANOVA et la génération de la statistique F. Le graphique a été créé à l'aide du paquetage granova dans R.
Découvrez la présentation de Hadley Wickham ( pdf , mirror ) sur ggplot. À partir des pages 23 à 40 de ce document, il décrit une approche intéressante pour visualiser les ANOVA.
* Lien tiré de: http://had.co.nz/ggplot2/
Excellente question. Vous savez, je me suis battu avec la tête pendant longtemps pour analyser l'ANOVA. Je me retrouve toujours à revenir à l'intuition «entre versus intérieur» et j'ai toujours essayé d'imaginer à quoi cela ressemblerait dans ma tête. Je suis heureux que cette question ait été soulevée et j'ai été surpris par la diversité des approches proposées dans les réponses ci-dessus.
En tout cas, depuis longtemps (même des années), j’ai eu envie de rassembler plusieurs parcelles au même endroit où je pouvais voir simultanément ce qui se passait dans différentes directions: 1) à quel point les populations sont éloignées , 2) comment Les données sont très éloignées les unes des autres, 3) quelle est la différence entre ces chiffres et 4) comment se comparent les distributions F centrale et non centrale ?
Dans un monde vraiment formidable , je pouvais même jouer avec des curseurs pour voir comment la taille de l'échantillon change les choses.
Donc j'ai joué avec la manipulate
commande dans RStudio , et vache sacrée, ça marche! Voici l'une des parcelles, un instantané, vraiment:
Si vous avez RStudio, vous pouvez obtenir le code pour faire le tracé ci-dessus (curseurs et tous)! sur Github ici .
Après avoir joué avec cela pendant un certain temps, je suis surpris de voir à quel point la statistique F distingue les groupes, même pour des échantillons de taille modérément petite. Quand je regarde les populations, elles ne sont vraiment pas si éloignées (à mes yeux), pourtant, la barre "intérieure" est systématiquement réduite à néant par la barre "entre". Apprenez quelque chose tous les jours, je suppose.
Pour illustrer ce qui se passe avec l'ANOVA unidirectionnelle, j'ai parfois utilisé une applet proposée par les auteurs de "Introduction à la pratique des statistiques", qui permet aux étudiants de jouer avec les variances intra et inter et d'observer leur effet sur la statistique F . Voici le lien (l'applet est le dernier sur la page). Exemple de capture d'écran:
L'utilisateur contrôle le curseur supérieur en faisant varier les étendues verticales des trois groupes de données. Le point rouge en bas se déplace le long du graphique des valeurs p, tandis que la statistique F indiquée ci-dessous est mise à jour.
Il semble que le navire a déjà navigué en termes de réponse, mais je pense que s’il s’agit d’un cours d’introduction, la plupart des présentations proposées ici seront trop difficiles à comprendre pour les étudiants en début d’initiation ... ou tout au moins aussi. difficile à saisir sans un affichage introductif qui fournit une explication très simplifiée de la variance de partitionnement. Montrez-leur comment le total de la SST augmente avec le nombre de sujets. Puis, après avoir montré le gonflement de plusieurs sujets (peut-être en ajoutant un dans chaque groupe plusieurs fois), expliquez que SST = SSB + SSW (bien que je préfère l'appeler dès le départ parce que cela évite la confusion lorsque vous passez au test de sujets à l'intérieur IMO ). Ensuite, montrez-leur une représentation visuelle du partitionnement de la variance, par exemple une grande couleur carrée codée de manière à ce que vous puissiez voir comment SST est composé de SSB et SSW. Ensuite,