Comment visualiser au mieux les différences dans de nombreuses proportions entre trois groupes?

18

J'essaie de comparer visuellement comment trois publications d'actualités différentes couvrent différents sujets (déterminées par un modèle de sujet LDA). J'ai deux méthodes connexes pour le faire, mais j'ai reçu beaucoup de commentaires de collègues que ce n'est pas très intuitif. J'espère que quelqu'un là-bas aura une meilleure idée pour visualiser cela.

Dans le premier graphique, je montre les proportions de chaque sujet dans chaque publication, comme ceci:

Proportions pour tous les sujets et publications

C'est assez simple et intuitif pour presque tous ceux à qui j'ai parlé. Cependant, il est difficile de voir les différences entre les publications. Quel journal couvre plus quel sujet?

Pour y arriver, j'ai représenté graphiquement la différence entre la publication avec la proportion de sujets la plus élevée et la deuxième plus élevée, colorée par la publication la plus élevée. Comme ça:

Différence entre le premier et le deuxième sujet le plus élevé

Ainsi, l'énorme barre pour le football, par exemple, est vraiment la distance entre al-Ahram English et Daily News Egypt (n ° 2 dans la couverture du football), et elle est colorée en rouge car Al-Ahram est n ° 1. De même, les essais sont verts car Egypt Independent a la proportion la plus élevée, et la taille de la barre est la distance entre Egypt Independent et Daily News Egypt (# 2 encore).

Le fait que je doive expliquer que le tout en deux paragraphes est un signe assez sûr que le graphique échoue au test d'autosuffisance. Il est difficile de dire ce qui se passe vraiment en le regardant.

Avez-vous des suggestions générales sur la façon de mettre en évidence visuellement la publication dominante pour chaque sujet de manière plus intuitive?

Edit: Données pour jouer avec: Voici la dputsortie de R , ainsi qu'un fichier CSV .

Edit 2: Voici une version préliminaire du tracé de points, avec les diamètres des points proportionnels à la proportion du sujet dans le corpus (c'est ainsi que les sujets ont été triés à l'origine). Bien que je doive encore le peaufiner un peu plus, cela semble beaucoup plus intuitif que ce que je faisais auparavant. Merci tout le monde!

Tracé de points

data-visualization communication

— Andrew
source

1

Je viens d'ajouter quelques données (pour R et un CSV). Je n'ai pas encore fini de choisir les bonnes couleurs (d'où le rouge / vert de Noël), bien que je sois conscient des problèmes de daltonisme :)

— Andrew

1

La mention des "proportions" est un peu un problème ici, car les données ne sont pas vraiment des proportions et, plus important encore, aucune des solutions graphiques jusqu'à présent ne dépend des données étant des proportions. C'est bien parce que les solutions sont pertinentes pour un large éventail de données, mais ne vous y trompez pas.

— Nick Cox

(+1) Belle question, y compris un ensemble de données téléchargeables et un suivi rapide!

— chl

Andrew, concernant votre dernier montage, je pense que ce serait mieux avec les lignes de grille verticales. Ils créent un motif de vérificateur mais n'ajoutent pas beaucoup de valeur, en supposant que vous ne vous souciez pas de lire des valeurs précises à partir du graphique.

— Xan

Sans les lignes verticales?

— Andrew

18

Merci d'avoir rendu les données accessibles et pour un ensemble de données intéressant et un défi graphique.

Ma principale suggestion est un graphique à points (Cleveland).

entrez la description de l'image ici

Les détails les plus importants que je voudrais souligner:

La superposition permet ici et facilite la comparaison.
L'ordre des sujets dans vos affichages semble assez arbitraire. En l'absence d'un ordre naturel (par exemple, le temps, l'espace, une variable ordonnée), je trierais toujours l'une des variables pour fournir un cadre. Le choix peut être une question de savoir si l'un est particulièrement intéressant ou important, la décision d'un chercheur. Une autre possibilité consiste à ordonner une certaine mesure des différences entre les articles, de sorte que les sujets bénéficiant d'une couverture similaire se trouvent à une extrémité et ceux qui reçoivent une couverture différente à l'autre extrémité.
Les marqueurs ouverts ou les symboles ponctuels permettent de mieux résoudre le chevauchement ou l'identité que les marqueurs ou symboles fermés ou solides, qui dans le pire des cas s'obscurcissent ou s'obstruent. (Une alternative qui pourrait très bien fonctionner ici est des lettres telles que A, D et I pour les trois journaux.)

Il y a clairement beaucoup de possibilités pour améliorer ma conception. Par exemple, le lettrage est-il trop gros et / ou trop lourd? En revanche, les en-têtes doivent être facilement lisibles, sinon le graphique est un échec.

Quelques points plus petits et plus difficiles:

une. Le rouge et le vert sur votre graphique sont une combinaison de couleurs à éviter. Lorsque différents marqueurs sont utilisés, les choix de couleurs sont un peu moins cruciaux.

b. Les graduations horizontales sur votre graphique sont gênantes. En revanche, des lignes de grille sur la mienne sont nécessaires, mais j'essaie de les rendre discrètes en utilisant des lignes fines et légères.

$\times$

Les graphiques à points de Cleveland doivent le plus à

Cleveland, WS 1984. Méthodes graphiques pour la présentation des données: ruptures à grande échelle, graphiques à points et journalisation multibas. Statisticien américain 38: 270-80.

Cleveland, WS 1985. Éléments de données graphiques. Monterey, Californie: Wadsworth.

Cleveland, WS 1994. Éléments de données graphiques. Sommet, NJ: Hobart Press.

Un précurseur (plus célèbre statistiquement pour un travail très différent !!!) a été

Pearson, ES 1956. Quelques aspects de la géométrie des statistiques: l'utilisation de la présentation visuelle pour comprendre la théorie et l'application des statistiques mathématiques. Journal de la Royal Statistical Society A 119: 125-146.

Pour les personnes intéressées, le graphique a été préparé dans Stata après lecture dans le .csv avec le code

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color)

— Nick Cox
source

C'est génial - merci! Les pourcentages ne correspondent malheureusement à rien parce que les valeurs sont des moyennes normalisées à partir d'un grand corpus de documents (c'est-à-dire que chaque document dans chaque publication se compose d'une combinaison des 20 sujets, découverts par LDA - cela montre les moyens normalisés… d'où la petits nombres)

— Andrew

De plus, les sujets sont classés selon leur proportion dans le corpus. La gouvernance de l'Égypte est le sujet qui apparaît le plus souvent, tandis que les divers sont le sujet le plus rare. Mais l'utilisation de cet ordre rend les points / symboles légèrement plus difficiles à suivre visuellement.

— Andrew

C'est bien! Merci! J'ai mis à jour le message d'origine pour refléter vos suggestions et ajouter des proportions de corpus.

— Andrew

(+6) Belle réponse! Et c'est toujours agréable d'avoir des références et du code reproductible.

— chl

@chl Merci beaucoup pour les commentaires élogieux et la réputation supplémentaire.

— Nick Cox

14

L'intrigue de points de Nick Cox est probablement la meilleure pour l'image complète. Si vous voulez vraiment mettre l'accent sur la première relation par rapport à la seconde, voici une modification de votre graphique qui compense la barre de différence avec la longueur de la deuxième barre.

entrez la description de l'image ici

Et pour une vue d'ensemble différente, vous pouvez essayer quelque chose comme un graphique de pente ou un tracé de coordonnées parallèles. Les lignes peuvent être un peu trop encombrées ici, mais cela peut fonctionner si vous souhaitez mettre en évidence un sous-ensemble des sujets.

entrez la description de l'image ici

En outre, vous pouvez essayer helpmeviz.com qui est orienté vers des questions très spécifiques sur les données comme celle-ci.

— xan
source

Intéressant! Minute point: le titre de l'axe ou l'étiquette "proportion" ne correspond pas aux unités de%.

— Nick Cox

Ooh, c'est vraiment intéressant. Je vais jouer avec cela pour voir si cela peut compléter le tableau de points.

— Andrew

2

Mon premier instict fut de suggérer un complot mosaïque ; il représente chaque sous-catégorie sous forme de rectangle, où une dimension représente le nombre total pour la catégorie principale et l'autre dimension représente la part proportionnelle de la sous-catégorie. Il existe un package R pour les dessiner , mais il est également assez simple de le faire avec des outils graphiques de niveau inférieur.

Cependant, les graphiques en mosaïque (comme les graphiques à barres empilées en pourcentage) fonctionnent mieux s'il n'y a que 2 ou 3 catégories dans la dimension dans laquelle vous souhaitez comparer les proportions. Ils fonctionneraient donc bien si vous vouliez comparer les différences entre les sujets dans la proportion d'articles qui figuraient dans chacun des trois journaux , mais pas tant pour votre utilisation prévue, en comparant les différences entre trois journaux dans la proportion de couverture pour chaque sujet . Une distinction subtile mais importante!

Pour ce que vous voulez souligner, je pense que le graphique le plus efficace est l'un des plus simples - un graphique à barres groupées. Plus de gens comprennent les graphiques à barres que les graphiques à points; en un coup d'œil, vous pouvez voir que vous comparez des quantités de tailles différentes et que les valeurs que vous souhaitez comparer sont côte à côte.

Cependant, si vous vouliez vraiment souligner les différences de proportion, vous pouvez créer un graphique à barres groupées personnalisé, modifié pour positionner chaque groupe de sorte que la valeur médiane par catégorie soit alignée avec l'axe, au lieu des valeurs nulles:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Notez que les barres de chaque groupe sont toujours alignées pour faciliter la comparaison de la taille et que la ligne de base de chaque groupe est désormais positionnée à gauche de l'axe en fonction de la valeur médiane de ce groupe, tandis que les barres qui se projettent à droite de l'axe sont équivalentes à votre deuxième graphique à barres montrant la différence entre les deux catégories supérieures.

Que vous utilisiez un graphique à barres groupé standard ou un graphique à décalage ajusté comme ci-dessus, vous pouvez toujours prendre une idée à partir de graphiques en mosaïque et rendre la largeur de chaque barre proportionnelle au nombre total d'articles pour ce journal (donc la taille de la barre est proportionnelle au nombre d'articles dans ce journal dans cette catégorie).

Étant donné que votre statistique de test est une propriété de chaque comparaison , pas de valeurs individuelles, je ne pense pas qu'il soit utile de mettre à l'échelle chaque point de données en fonction de la signification. Au lieu de cela, j'aurais une icône à côté de chaque groupe représentant la signification. Pour la publication académique, la norme */ **/ ***présente l'avantage de la familiarité, mais vous pouvez faire preuve de créativité si vous souhaitez afficher le continuum complet de la statistique.

— AmeliaBR
source

L'idée principale ici est de regrouper les barres verticalement. C'est une conception largement utilisée, mais implique 60 barres verticales plutôt que 20 dans l'original de l'affiche. Bien que vous puissiez clairement ajuster la largeur de la barre, je pense que vous allez avoir besoin de plus d'espace pour bien le faire dans ce cas, d'autant plus que vous voulez ajouter de l'espace entre les groupes.

— Nick Cox

@NickCox C'est un inconvénient par rapport au graphique original plus compact, bien que vous puissiez faire pivoter le graphique entier de 90 degrés si une figure orientée paysage convenait à votre disposition globale.

— AmeliaBR

Vous pourriez, mais 60 barres sont difficiles de gauche à droite aussi, et 20 étiquettes telles que "Frères musulmans et politique" devraient rester lisibles ...

— Nick Cox

Vous pourriez être en mesure de le faire fonctionner en ayant les barres dans un groupe les unes sur les autres au lieu de côte à côte. Difficile à dire sans voir une maquette (et mon art ASCII n'est pas très bon pour transmettre l'apparence). Ce serait moins intuitif car ce n'est pas une structure aussi familière, et cela pourrait prêter à confusion si deux barres ont presque exactement la même hauteur. Mais si l'alternative est des barres d'un pixel de large ...

— AmeliaBR

Donc, vous vous approchez de la suggestion dans ma réponse d'un tableau à points.

— Nick Cox du

1

Avez-vous essayé un graphique à bulles? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Les sujets individuels pourraient être des cercles et chaque cercle pourrait être un diagramme circulaire du pourcentage que chaque média couvre le sujet. La taille du cercle pourrait indiquer la couverture relative du sujet. Par exemple, si plus d'articles totaux sont écrits sur l'huile que sur la culture, le cercle d'huile a un diamètre plus grand.

— rocinante
source

[X, Y]

$[X,Y]$

1

@NickStauner Je n'ai pas vu la question modifiée avec l'ensemble de données lorsque j'ai répondu à l'origine. Les coordonnées ne signifieraient pas grand-chose mais le nombre de publications. Les cercles peuvent être regroupés par sujet ou par taille de diamètre. Je ne sais pas pourquoi les pourcentages ont été utilisés en premier lieu, car les chiffres sont extrêmement faibles.

— rocinante