Quelles sont les règles essentielles pour concevoir et produire des parcelles?

19

Contexte:

Auparavant sur Cross Validated, nous avons eu des questions sur:

@David a suggéré dans les commentaires de cette question que nous devrions avoir une question wiki communautaire avec une règle de visualisation par réponse sur laquelle la communauté pourrait voter.

Question

Quelles sont les règles essentielles pour concevoir et produire des représentations graphiques de données?

Règles

Une règle par réponse
Idéalement, incluez une brève explication des raisons pour lesquelles vous pensez que c'est une bonne idée
Réponses avec des exemples (code et image) de bonnes et mauvaises pratiques préférées.

data-visualization

— Jeromy Anglim
source

13

Substance par rapport à la forme : choisissez l'intrigue, le style, la coloration ou d'autres paramètres graphiques appropriés pour montrer ce que vous voulez que l'intrigue montre, plutôt que ce que votre package graphique autorise nécessairement.

— Fomite
source

8

(+1) Je préfère souvent esquisser d'abord un graphique sur papier pour réduire le risque que mes décisions de conception soient guidées par le chemin de moindre résistance créé par le logiciel graphique.

— Jeromy Anglim

13

Se familiariser avec les trois dimensions de la couleur peut être utile. Si vous utilisez plusieurs couleurs, elles devraient idéalement différer sur plusieurs de ces dimensions, pas seulement une.

Valeur. Le graphique doit rester lisible même en noir et blanc. Cette règle simple devrait tenir compte du daltonisme, des imprimantes de faible qualité et des mauvaises conditions d'éclairage. Même si vous utilisez des teintes différentes, assurez-vous que les valeurs sont suffisamment différentes. En particulier, les tracés doivent être sombres sur un fond clair (ou l'inverse), mais pas gris sur une valeur grise. Le pire exemple serait un tracé bleu sur fond rouge - les deux sont des valeurs moyennes, c'est-à-dire qu'ils donneraient des gris très similaires après la conversion en noir et blanc.

Saturation. La saturation doit être utilisée avec modération: une ligne rouge pure peut être fine, mais une ligne rouge plus épaisse et moins saturée sera plus lisible (l'augmentation de l'épaisseur permet de distinguer les couleurs et vous permet de réduire la saturation). En revanche, une zone rouge pure est pénible à regarder: n'utilisez pas de couleurs saturées pour remplir les zones. Les palettes de couleurs de Brewer (conçues pour les cartes et non les tracés linéaires) donnent des exemples de choix de couleurs à faible saturation. Le pire exemple serait, encore une fois, un fond saturé (bleu sur rouge ou rouge sur bleu).

Teinte. Comme mentionné par @gung, évitez la combinaison rouge / vert (feux de circulation): il y a beaucoup plus de personnes daltoniennes que vous ne le pensez. Surtout avec la teinte, moins c'est plus. Par exemple, pour tracer des valeurs "divergentes" (c'est-à-dire des quantités qui peuvent être positives ou négatives), utilisez uniquement deux teintes (pour les valeurs positives et négatives), afin que le lecteur puisse immédiatement distinguer ce qui est élevé et ce qui est faible. L'utilisation d'un dégradé discret peut aboutir à un tracé beaucoup plus lisible: les limites entre les couleurs deviennent visibles et forment un tracé de contour.

Vous voudrez peut-être lire les règles pratiques de S. Few pour l'utilisation de la couleur dans les graphiques ou consulter tout matériel sur la «théorie des couleurs» pour les étudiants en art ou en design.

— Vincent Zoonekynd
source

+1, bonnes informations ici. Votre point sur la valeur et le rendu des couleurs après la conversion en noir et blanc est particulièrement bon. Le lien vers le document Few est également utile. Une remarque: il est préférable de ne pas se référer aux autres réponses comme "ci-dessus", utilisez @ untel à la place; les réponses se déplacent en fonction du nombre de votes obtenus.

— gung - Réintègre Monica

11

Placez autant d'informations requises dans la figure elle-même. N'exigez pas que le lecteur fasse référence à la légende, par exemple pour identifier la signification de divers symboles ou couleurs. Placez toutes les informations (ou informations supplémentaires) qui ne peuvent pas entrer dans la figure elle-même dans la légende. L'idée est de minimiser l'effort requis par une visionneuse de graphique pour extraire les informations pertinentes - meilleur: le graphique est explicite, le mieux: les informations supplémentaires requises peuvent être rapidement glanées dans la légende, pire: le spectateur doit lire attentivement le toute la section des résultats à la recherche de détails cruciaux pour comprendre ce qui se passe.

— David
source

1

+1, et nous pouvons étendre cette idée: nous voulons que les gens puissent voir un graphique et savoir (autant que possible) ce qui se passe sans avoir à lire la légende, et aussi quand ils ont besoin d'informations supplémentaires pour ayez-les à disposition dans la légende afin que les gens puissent lire la légende et savoir ce dont ils ont besoin sans avoir à lire le document à la recherche de ce détail crucial.

— gung - Rétablir Monica

1

@gung car c'est CW, n'hésitez pas à modifier la réponse pour refléter vos commentaires.

— David LeBauer

10

Rendez l'intrigue aussi simple que possible. Selon les mots de Tufte, «minimisez le rapport données-encre».

Par exemple, évitez:

plus de couleurs ou de formes que nécessaire
plus de graduations que nécessaire
Effets 3D sur un tracé 2D.
utiliser une légende lorsque les objets peuvent être étiquetés directement

— David LeBauer
source

Je ne suis pas d'accord avec Tufte ici. Premièrement, une grande partie de la motivation de cette règle dans son livre original est le temps que vous avez à passer à dessiner des lignes supplémentaires et inutiles; mais cela n'a plus d'importance aujourd'hui. Deuxièmement, l'idée réelle est mieux saisie par la règle de Cleveland pour maximiser l'informativité du graphique, car parfois l'intrigue peut devenir plus informative avec plus d'encre, mais les deux règles interdisent la carte graphique qui offense Tufte.

— gung - Rétablir Monica

@gung où était l'effort / temps requis présenté comme une motivation par Tufte. Je ne me souviens pas de cette partie (mais je n'ai pas non plus le texte à portée de main).

— David LeBauer

1

Je ne l'ai pas non plus, mais dans son premier livre Visual Display, je me souviens qu'il parlait du nombre de fois où vous avez dû poser la règle pour dessiner un graphique. Peut-être que «gros» était une surestimation, mais je me souviens avoir lu ceci et avoir pensé: «qui s'en soucie maintenant? Dans Elements , Cleveland fait un argument convaincant que la règle de Tufte est erronée. Il fait valoir que l'objectif est de maximiser le transfert d'informations et montre que ce principe élimine également ce que Tufte n'aime pas, mais permet des cas (qu'il montre) où une encre supplémentaire sans données aide à rendre le graphique plus informatif.

— gung - Rétablir Monica

Je dois préciser, je ne suis pas en désaccord avec certaines des suggestions spécifiques (par exemple, pas de 3D, pas d'ordure graphique); Je chipote avec la règle de Tufte comme guide pour les graphiques.

— gung - Rétablir Monica

@gung J'ai interprété la même discussion comme un outil heuristique - un moyen facile pour le lecteur de comprendre l'approche, plutôt que comme un moyen de réduire le travail du concepteur.

— David LeBauer

9

Laissez le temps de modifier. Faire un bon graphique prend du temps et cela prend souvent (au moins pour moi) plusieurs essais.

— Peter Flom - Réintégrer Monica
source

6

Ne vous opposez pas au rouge et au vert. La couleur peut être utile, mais lors de l'utilisation de la couleur, gardez toujours à l'esprit qu'une minorité importante de personnes sont daltoniennes rouge-vert. Une fois, je montrais des données à quelqu'un, et il ne pouvait pas comprendre ce qui se passait dans mes graphiques - c'était un gaspillage et je me sentais assez stupide. D'autres formes de daltonisme sont très rares, mais le rouge-vert est assez courant. Cette page contient beaucoup de bonnes informations. Voici quelques conseils:

Si vous n'avez besoin que de deux couleurs, utilisez le bleu et le jaune - n'utilisez pas le rouge et le vert.
Si vous avez besoin d'un dégradé, passez du bleu au jaune tout en changeant la saturation et la luminosité simultanément - n'utilisez pas l'arc-en-ciel.
Si vous devez coder plus de deux éléments (par exemple, des points sur un nuage de points de plus de deux groupes ou plusieurs lignes), sauvegardez également vos couleurs avec différents symboles de tracé / styles de ligne. Par exemple, des symboles de traçage distincts: o + <sw, ou des lignes: pleines, pointillées, pointillées, pointillées, etc. (vous pouvez également ajouter des symboles de traçage à vos lignes ou modifier les épaisseurs de ligne).

— 2 tours
source

C'est en effet quelque chose que je me demandais assez souvent: quel est le meilleur dégradé de couleur à utiliser?

— steffen

4

N'utilisez pas de graphiques à barres empilées. Et sur une note connexe, si vous avez un élément d'échelle Likert, ne ressentez pas le besoin d'afficher la proportion pour chaque réponse à chaque élément. Ces graphiques font saigner mes yeux.

N'utilisez pas de camemberts.

Ne dupliquez pas les données contenues dans un graphique en lançant une table.

Utilisez une police sans empattement comme Arial pour les titres de graphiques, etc., car ces types de polices sont conçus pour être utilisés de cette façon.

Aucun article sur la conception n'est complet sans référence de livre, j'aime vraiment les règles statistiques . Le chapitre 9 est le morceau pertinent pour la discussion ici, et les bits sur lesquels je pointe lorsqu'on me demande pourquoi je déteste les graphiques à barres et les graphiques à secteurs empilés. :)

Confession: dans l'un de mes premiers rôles de consultant étudiant pour une petite ONG cliente, je leur ai donné un rapport qui avait beaucoup de graphiques à barres empilées, imprimés en couleur (c'était le milieu des années 1990). Je pense que j'ai réussi à faire entrer le jaune, le violet et le rouge dans ces chiots.

— Michelle
source

3

Ne jouez pas avec les axes. Ne coupez pas les cent premières unités simplement parce que la pente du graphique semble plus impressionnante. L'image restera collée et les gens se souviendront d'un effet beaucoup plus important que celui mesuré réellement.

— xmjx
source

2

Couper des données pour modifier la pente apparente est frauduleux. OTOH, il y a une vraie question de savoir si les axes doivent toujours inclure 0 et (un peu moins liés) le rapport d'aspect utilisé. Cleveland démontre clairement que les graphiques sont plus informatifs si vous maximisez les données dans la fenêtre de données et que la «banque» s'incline à 45 degrés. Connaissez votre public, ici: Cleveland soutient que le public professionnel doit être considéré comme compétent et alphabétisé, mais avec un public naïf, soit pointez explicitement ces fonctionnalités et expliquez-les, soit (éventuellement) ne les utilisez pas.

— gung - Réintègre Monica

Même le public professionnel se souviendra (je suppose) des mois plus tard de la ligne raide du graphique et aura oublié l'interception et tout le reste. Vous pouvez avoir toutes ces données dans le graphique (plat) en étiquetant correctement les valeurs extrêmes et avoir toujours l'information que rien n'a réellement changé de temps.

— xmjx

2

Je ne suis pas d'accord. Je ne pense pas que ce soit une règle sensée d'insister pour que tous les axes commencent à zéro, si c'est ce qui est suggéré. Les graphiques devraient montrer la variation et la structure des données - si ce qui est important, c'est une fluctuation de 100 000 autour de la valeur de deux millions (et peut-être comment elle est différente entre deux groupes), le graphique devrait montrer que, non pas que "deux millions soit un grand nombre ".

— Peter Ellis

Comme pour pratiquement n'importe quelle règle de conception, je pense que vous pouvez la casser si vous comprenez vraiment la signification pratique de la variation tracée et comment votre public l'interprétera. Mais cette règle est violée si souvent et de manière si flagrante que je pense qu'il est relativement sûr de proclamer haut et fort "Tous les complots doivent inclure zéro! *" sauvagement au cours des deux dernières décennies, alors qu'en fait l'écart maximal est d'environ 5%.

— Matt Parker

Ce n'est pas que 5% n'est pas pertinent - et la plupart de ces parcelles sont associées à des arguments sur les conséquences des politiques qui ont généré cette fluctuation. Mais je pense que ces arguments seraient encore plus forts s'ils mettaient en évidence le fait que des politiques massives aux conséquences économiques énormes avaient en fait des effets relativement faibles sur l'accession à la propriété.

— Matt Parker