Comment ce graphique BBC (corrélation du Brexit entre l'éducation et les résultats) aurait-il dû être tracé?

8

La BBC a analysé plus de données référendaires sur le Brexit; le premier graphique de leur article a attiré mon attention:

Il semblait étrange de diviser l'axe des x à 50%. Cela aurait sûrement dû être divisé à la médiane des données? (Ou la moyenne si les données ont été normalement distribuées; mais en plissant les yeux, cela ne semble pas être le cas ici.)

(Ils n'ont pas publié leurs données, mais un rapide google suggère que les diplômés représentent environ 25% de la population adulte, et cela correspond à la lecture du tableau, donc je vais y aller.)

Mais cela m'a fait réfléchir sur la façon de dessiner ce tableau aussi objectivement que possible. Serait-il préférable de garder l'axe des x linéaire et d'avoir les deux cases de droite trois fois plus larges? Ou garder les boîtes toutes de la même taille, écraser et étirer l'axe des x, de sorte que chaque étendue de N pixels couvre le même nombre de points de données? Ou autre chose?

data-visualization statistics-in-media

— Darren Cook
source

5

Je ne vois aucun vrai problème ici. Laisser> Rester est très pertinent pour considérer le résultat. Plus de diplômés que non est compréhensible. Si un seuil différent avait été choisi pour ce dernier, certains autres lecteurs auraient bien pu être confus. Contrairement à une réponse, la raison pour laquelle aucun point de données n'est affiché dans un quadrant est qu'aucun n'y appartient; qu'est-ce qui est trompeur? On peut soutenir que tout l'ombrage distrait, mais il y a une tentative de guider l'interprétation.

— Nick Cox

4

Notez que, probablement à l'énorme surprise de toute personne statistiquement soucieuse, les diagrammes de dispersion sont largement considérés dans le journalisme de données et les domaines connexes comme trop difficiles pour le grand public!

— Nick Cox

2

Ce complot est généralement bien fait, comme plusieurs l'ont noté. La seule vraie critique qui vient immédiatement à l'attention est le surplotage des points au centre: cela rend difficile l'évaluation du nombre de points là-bas, ce qui rend l'intrigue un peu moins utile qu'elle ne pourrait l'être.

— whuber

3

Je pense que cette version FT de données similaires sert de réponse décente sur la façon de présenter les données de manière équitable.

Plutôt que d'absolu sur une échelle de 0 à 100, il effectue un zoom avant pour se concentrer sur le changement. Les lignes aident à vérifier le modèle qui est difficile à évaluer sur les seuls points en raison de toutes les surcharges. (Combien des 1070 quartiers pouvez-vous distinguer dans l'original?)

— xan
source

1

Merci. J'aime cette idée: lorsque la plupart des éléments d'une partie du graphique ont quelque chose en commun (zone géographique, ici), mettez en surbrillance tous les éléments avec cette fonctionnalité. (Les lignes de tendance fonctionnent également très bien dans ce cas.)

— Darren Cook

10

Je suis d'accord que la coloration rose des quadrants est en grande partie cosmétique, mais dans l'ensemble, je considère cela comme une intrigue claire et informative. Le message est immédiatement apparent et n'est pas trompeur. La BBC a tracé les points de données réels. Ils n'ont pas manipulé les axes x ou y. L'annotation sur le tracé est correcte et non surestimée. Ils n'ont pas ajouté de lignes de tendance parasites ni aucune autre interprétation inutile. Comparé à la plupart des données chiffrées présentées dans les médias, ce graphique est excellent - c'est un assez bon exemple de laisser les données parler d'elles-mêmes. En bref, je pense que vous y pensez trop. Je ne doute pas que vous puissiez trouver des moyens d'améliorer l'intrigue, mais la simplicité est généralement la meilleure.

— Gordon Smyth
source

4

+1 depuis que je suis d'accord. J'ajouterais que le fractionnement à la médiane ou à la moyenne n'est pas plus arbitraire qu'à 50%, cela dépend simplement de ce que vous voulez exactement montrer.

— Tim

4

Je suis d'accord que le graphique est trompeur en ce sens qu'il prétend montrer qu'il n'y a pas de points de données dans le quadrant catégoriquement décrit comme un pourcentage élevé de voix en congé, un pourcentage élevé de diplômés. Ce qui est haut et bas devient relatif aux limites de l'axe, pas aux données réelles. Bien qu'il soit théoriquement possible d'avoir une unité avec une population qui est à 100% diplômée d'université, une telle unité n'existe pas. Vous n'avez pas besoin d'inventer des points de données pour produire un graphique trompeur: un axe brisé montrant un changement exagéré est un exemple qui n'est pas trop différent de celui-ci.

Une manière plus objective de visualiser ces données serait de définir les limites de l'axe du nuage de points au maximum / min des données, puis de diviser le graphique en quadrants d'une zone égale.

La raison pour laquelle j'opterais pour l'aire égale des quadrants est que les quadrants montrent une relation linéaire équivalente entre les variables. Les descriptions catégorielles des quadrants «haut» et «bas» sont traitées comme équivalentes, les zones devraient donc l'être également.

Si, à la place, nous voulons utiliser les quadrants comme une autre façon de décrire quantitativement les données, nous pourrions définir les bordures des quadrants à la moyenne de chaque variable, comme indiqué dans Visualisation des données avec des exemples R: 100 (disponible en aperçu sur Google Books, p283, 286).

Pour ajouter une autre couche analytique à une visualisation de nuage de points, nous pouvons utiliser la couleur et la taille des points. Par exemple, la couleur peut être utilisée pour séparer les villes universitaires des autres, afficher la participation électorale dans un dégradé ou mettre en évidence les résultats des élections générales pour ces circonscriptions. Je ne sais pas si la taille sera efficace avec autant de points de données, mais vous pouvez potentiellement enquêter sur différentes bandes de population, telles que 65+, et comment elles sont représentées dans les données.

À mon avis, il y a également deux mises en garde importantes qui méritent d'être prises en compte lorsque l'on regarde ce graphique: premièrement, qu'il compte tous les diplômés, qu'ils aient voté ou non au référendum, et deuxièmement, qu'il inclut les diplômés résidents titulaires d'un passeport européen qui n'a pas pu voter au référendum (en supposant que les données sources sont basées sur le recensement).

— gherka
source

Merci. Utiliser max et min ne serait pas loin ici, mais avec une distribution à longue queue, ou une valeur aberrante ennuyeuse (par exemple, vous pourriez imaginer qu'une ville universitaire pourrait avoir un quartier qui atteint 80 +%), cela pourrait toujours se déformer. Souhaitez-vous toujours aller avec min / max puis quadrants de surface paire?

— Darren Cook

J'ai édité ma réponse pour expliquer pourquoi j'utiliserais même des zones dans ce cas. Si la distribution est longue, il ne serait probablement pas approprié d'utiliser des quadrants pour classer les résultats de cette manière.

— gherka

2

Je suis d'accord, très trompeur. J'éliminerais le fond coloré tous ensemble.

Si vous insistez pour le colorer, peut-être un gradient correspondant à la densité de population? C'est-à-dire que la couleur d'arrière-plan devient plus foncée à mesure que de plus en plus de pupilles tombent dans la catégorie «instruits contre congé»

Il y a certainement une tendance, je ne pense pas que quiconque contesterait cela - peut-être que l'auteur devrait s'en tenir à une ligne de tendance quelconque?

— Mohammad Athar
source

3

Je conviens qu'une ligne de tendance (probablement une courbe) est un ajout naturel pour les statistiquement soucieux, mais il s'agit d'un graphique dans les médias de masse.

— Nick Cox