Je suis d'accord que le "meilleur" graphique n'existe pas indépendamment de l'ensemble de données, du lectorat et de l'objectif. Pour deux variables mesurées, les diagrammes de dispersion sont sans doute la conception qui laisse toutes les autres dans son sillage, sauf à des fins spécifiques, mais aucun leader du marché n'est évident pour les données catégoriques.
Mon objectif ici est simplement de mentionner une méthode simple, souvent redécouverte ou réinventée, mais néanmoins souvent négligée même dans les monographies ou les manuels couvrant les graphiques statistiques.
Exemple d'abord, couvrant les mêmes données que celles publiées par xan:
Si un nom est recherché, comme c'est souvent le cas, il s'agit d'un diagramme à barres à deux voies (dans ce cas). Je ne cataloguerai pas d'autres termes ici, sauf que le graphique à barres multiples est une alternative courante avec une saveur similaire. (Ma petite objection au "graphique à barres multiples" est que le "multiple" n'exclut pas les graphiques à barres empilées ou côte à côte très courants, alors que "à deux sens" pour moi implique plus clairement une disposition en lignes et en colonnes, bien qu'à son tour il peut prendre des exemples pour le clarifier.)
Les avantages et les inconvénients de ce type d'intrigue sont également simples, mais je vais en expliquer certains. Comme j'aime ce design (qui remonte au moins aux années 1930), d'autres voudront peut-être ajouter des critiques plus pointues.
+1. L'idée est facilement comprise , même par des groupes non techniques. Les hauteurs ou longueurs de barre codent les fréquences dans cet exemple. Dans d'autres exemples, ils pourraient encoder des pourcentages calculés comme vous le souhaitez, des résidus, etc.
+2. La structure en lignes et colonnes correspond à celle d'une table . Vous pouvez également ajouter des valeurs numériques. De très petites quantités et même des zéros implicites sont clairement évidents, ce qui n'est pas toujours le cas avec d'autres modèles (par exemple, les graphiques à barres empilées, les graphiques en mosaïque). L'étiquetage des lignes et des colonnes est généralement plus efficace que l'ajout d'une clé ou d'une légende, avec le "va-et-vient" mental que cela nécessite. Ainsi, cette conception hybride les idées de graphiques et de tableaux, ce qui semble troubler certains lecteurs; à l'inverse, je dirais que de fortes distinctions entre les figures et les tableaux ne sont que des vestiges historiques, obsolètes maintenant que les chercheurs peuvent préparer leurs propres documents et ne doivent pas compter sur des concepteurs, des compositeurs et des imprimeurs.
+3. Les extensions aux conceptions à trois voies et supérieures sont faciles en principe . Mettez deux ou plusieurs variables en tant que variables composites sur l'un ou les deux axes, ou donnez un tableau de ces graphiques. Naturellement, plus la conception est compliquée, plus l'interprétation est compliquée.
+4. La conception permet clairement des variables ordinales sur les deux axes. L'ordre peut être exprimé (par exemple) par un ombrage approprié ainsi que l'ordre des catégories sur cet axe. L'ordre des catégories sur les axes peut être déterminé par leur signification, ou mieux déterminé par les fréquences; l'ordre alphabétique en fonction des étiquettes de texte peut être une valeur par défaut, mais ne doit jamais être le seul choix envisagé.
-1. En étant de conception générale, l'intrigue peut être moins efficace pour montrer certains types de relations . En particulier, un tracé en mosaïque peut rendre très clair les écarts par rapport à l'indépendance. Inversement, lorsque les relations entre les variables catégorielles sont compliquées ou peu claires, aucun graphique ne montre généralement mieux que ce fait faible.
-2. À certains égards, la conception est inefficace dans l'utilisation de l'espace en laissant de la place pour chaque combinaison croisée, qu'elle se produise ou non. C'est le vice du même principe considéré comme une vertu. La conception particulière au-dessus des espaces classe les catégories de manière égale quelle que soit leur fréquence; sacrifier qui sacrifie souvent des étiquettes marginales lisibles, que j'apprécie beaucoup. Dans cet exemple, les étiquettes de texte sont toutes très courtes, mais c'est loin d'être typique.
Remarque: les données de xan semblent juste être inventées, donc je n'essaierai pas une interprétation plus que ce qui est tenté dans d'autres réponses. Mais une certaine sagesse à la maison mérite le dernier mot ici: la meilleure conception pour vous est celle qui transmet le mieux à vous et à vos lecteurs la structure de certaines données réelles dont vous vous souciez.
D'autres exemples incluent
Comment pouvez-vous visualiser la relation entre 3 variables catégorielles?
Graphique pour la relation entre deux variables ordinales