Edit III: J'ai trouvé un exemple immensément magnifique de visualisation de données quantitatives multivariées et j'ai dû l'ajouter. Vous le trouverez sous la rubrique "Edit III (lauréats du prix Nobel)".
Edit II: il y a eu un petit malentendu, et j'ai édité pour essayer de clarifier la façon dont j'interprète l'utilisation prévue des données. J'ai remplacé deux images et ajouté une section "Voulez-vous des frites avec ça?"
Les graphiques révèlent des données.
Edward Tufte:
L'encombrement et la confusion sont des échecs de conception et non des attributs de l'information. L'encombrement appelle une solution de conception, pas une réduction de contenu. Très souvent, plus les détails sont intenses, plus la clarté et la compréhension sont grandes, car le sens et le raisonnement sont CONTEXTUELLEMENT implacables. Moins est un ennui.
Pourquoi visualisons-nous des données?
- Outils de réflexion
- Pour montrer le résultat d'une vision intense
- Comprendre un problème, prendre une décision
- Afficher les comparaisons, montrer la causalité
- Fournir des raisons de croire
Comment?
- montrer les données
- inciter le spectateur à penser à la substance plutôt qu'à la méthodologie, la conception graphique, la technologie de production graphique ou autre
- éviter de déformer ce que les données ont à dire
- présenter de nombreux nombres dans un petit espace
- rendre les grands ensembles de données cohérents
- encourager l'œil à comparer différents éléments de données
- révéler les données à plusieurs niveaux de détail, d'un large aperçu à la structure fine.
- servir un objectif raisonnablement clair: description, exploration, tabulation ou décoration.
- être étroitement intégré aux descriptions statistiques et verbales d'un ensemble de données.
Quelques définitions:
Les données:
est généralement considéré comme "des trucs qui sont triés dans des bases de données". Cela peut bien sûr être des nombres, des images, du son, de la vidéo etc. Les données sont ce qui est collectable, souvent quantitatif. Dans sa forme la plus crue, il est difficile à digérer; juste des murs de chiffres. Tu sais; la matrice . D'une manière générale, nous n'avons pas de bases de données massives composées de zéros, pour tout ce que nous n'avons pas , même si parfois ce que nous n'avons pas est le plus informatif . Donc , pour voir ce que nous n'avons pas, nous avons besoin de visualiser ce que nous n'avons.
Information:
est ce que vous pouvez extraire des données . En affichant les données d'une manière ou d'une autre, nous pouvons glaner des informations . L'un des exemples que j'utilise souvent est que si je vous donne une liste des pays du monde et vous dis que deux d'entre eux sont manquants, il est très peu probable que vous les trouviez sur la base de cette liste. Cependant, si j'affiche cela en coloriant tous les pays que j'ai sur une carte, vous verrez instantanément que j'ai omis la République centrafricaine et la Nouvelle-Calédonie. Il s'agit de "réduire le bruit" et de raconter une histoire de la manière la plus efficace possible.
Infographies et visualisations de données:
J'hésite à appeler votre exemple d'infographie. Je sais que cela est souvent considéré comme synonyme de visualisation de données, de conception d'informations ou d'architecture d'informations, mais je ne suis pas d'accord. Les infographies - pour moi - sont une série de graphiques, de diagrammes et d' illustrations qui pourraient bien contenir un tas de déclarations biaisées sur la façon de lire les données. Il est moins objectif, plus enclin à sauter des données qui ne sont pas dans "l'intérêt" du créateur: vous êtes guidé vers une conclusion que quelqu'un a prédéfinie. Ils ont une valeur de divertissement, et ils ont souvent une utilisation écrasante d'illustrations qui enlèvent une certaine concentration aux données. C'est bien, mais je pense que nous devrions différencier un peu.
Exemples
Big Data:
Gardez à l'esprit que le Big Data n'est pas la même chose que les données complexes. Beaucoup de données peuvent être tout à fait les mêmes, comme cette carte LinkedIn: les données de base sont les mêmes, mais il existe des filtres (par marquage). Il y a deux variables: la géographie et une sorte de tag définissant les gens dans les professions / intérêts / relations. Une quantité insensée de données; mais seulement deux variables.
Multivariable:
Voici un exemple de visualisation multivariable des données. Voici le tableau de Charles Minard de 1869 montrant le nombre d'hommes dans l'armée de campagne russe de Napoléon en 1812, leurs mouvements, ainsi que la température qu'ils ont rencontrée sur le chemin du retour.
Grande version ici.
Il faut un peu de temps pour déchiffrer le code, mais quand vous le faites, c'est magnifique. Les variables couvertes sont:
- taille de l'armée (nombre de vivants / morts)
- position géographique
- direction (est - ouest)
- Température
- heure (dates)
- causalité (mort au combat et de froid)
C'est une quantité incroyable d'informations dans une simple carte bicolore. La partie géographique est stylisée pour laisser de la place aux autres variables, mais nous n'avons aucun problème à l'obtenir.
En voici une plus délicate. Ce sera beaucoup plus facile à lire si vous êtes familier avec les visualisations évolutives de base, les cladogrammes, la phylogénie et les principes de la biogéographie. Gardez à l'esprit qu'il est fait pour les personnes familiarisées avec cela, il s'agit donc d'un tableau scientifique spécialisé. Voici ce qu'elle montre: Une image phylogéographique de lignées de grenouilles venimeuses d'Amérique du Sud. Les cartes à gauche montrent les principales régions biogéographiques au fil du temps et l'image à droite montre les lignées de grenouilles dans le contexte de leurs origines biogéographiques. (Par Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], via Wikimedia Commons). Lorsque vous "déchiffrez le code", il est extrêmement informatif.
Petits multiples, sparklines:
Je ne saurais trop insister sur ce point: ne sous-estimez jamais la valeur de la répétition d'informations ou de la diviser en visualisations identiques et distinctes. Tant qu'il est raisonnablement facile de comparer un graphique avec un autre, c'est parfaitement bien. Nous sommes des machines de recherche de motifs. Ceci est souvent appelé petits multiples. Nous avons peu de problèmes à analyser ces images assez rapidement, et tout entasser dans un grand graphique est souvent inutile lorsque dix petites fonctionnent encore mieux:
Un autre:
Et celui qui utilise des graphiques différents mais répétitifs:
Sparklines est un terme inventé par Edward Tufte, et également développé en une
bibliothèque javascript entièrement fonctionnelle et entièrement personnalisable. Ce sont essentiellement de minuscules graphiques qui peuvent être insérés dans du texte, en tant que partie du texte et non en tant qu'objet "externe". Voici à quoi ressemble la valeur par défaut:
Edit III (lauréats du prix Nobel)
Je n'ai eu qu'à ajouter cette visualisation de données que j'ai trouvée, elle est tout simplement trop bonne: elle montre des lauréats du prix Nobel. Quelle université, quelle faculté, sujet, année, âge, ville natale, si elle était partagée, niveau du diplôme. Belle évidence en effet. Ce sont toutes des données quantifiables. Plus ici.
Vos données
Toutes les questions posées par @Javi sont extrêmement importantes.
Ce que vous essayez de faire, c'est de créer un outil visuel de réflexion. Pour ce faire, vous devez extraire la meilleure qualité de rapport signal / bruit. Ce que vous avez du mal à savoir, c'est comment corréler des données qui ont différentes variables, en informations . Voici une question: qu'est-ce qui doit être approximativement correct et qu'est-ce qui doit être exactement exact? Quel est le but?
Je vais supposer que vous voulez afficher les données sans trop de biais: vous voulez que le lecteur trouve lui-même des corrélations, s'il y a une corrélation. Votre but n'est pas de dire aux gens que les hamburgers sont mauvais pour eux ou que les femmes mangent moins de hamburgers que les hommes, mais de les laisser "voir", si c'est ce que contiennent les données (imaginez si ces trois personnes étaient une famille. Ce serait balancer notre vue sur l'ensemble du graphique de manger des hamburgers un peu).
Votre jeu de données est si petit, vous pouvez simplement tout mettre dans un tableau et ce serait bien. Mais bien sûr, il s'agit de l'idée générale:
Un petit détail: le temps (âge) a tendance à être quelque chose que nous considérons comme horizontal de gauche à droite (chronologies). Pesez quelque chose de haut en bas, donc changer de x - y serait une bonne idée.
1. Quelles sont les entités fixes uniques?
2. quelles sont les variables variables (eh ..)?
- poids (kg)
- Âge (années)
- Nombre de burgers (entier)
- Type de hamburgers (entier)
Remarque: vos données sont entièrement constituées d'unités. Comptable, quantifiable chacun sur une échelle mentale distincte. Kilo, âge, poids et chiffres. Et dans le langage des bases de données, leurs noms sont les clés. Lorsque vous commencez à faire des visualisations spatio-temporelles, cela devient un vrai casse-tête. Imaginez que vous devez ajouter le lieu de naissance, la maison actuelle, etc.
Les deux seuls ici qui ont une corrélation sont le nombre de hamburgers et que ce soit ou non un combo. Toutes les autres variables sont indépendantes et une seule est fixe (nom). À un certain point, avec de grands ensembles de données, même les noms deviennent inintéressants et sont remplacés par des données démographiques, d'âge, de sexe ou similaires.
Avec ce petit ensemble de données, vous pouvez obtenir tout cela dans un seul graphique, par exemple comme ceci:
Ou vous pouvez modifier le contenu de l'axe et de la bulle de nom:
Note personnelle: Je pense que c'est le meilleur des deux, car le x et le y contiennent les propriétés "physiques" d'un être humain. La variable dans les bulles ici est le nombre de hamburgers.
Vous pouvez également ajouter des graphiques à secteurs en plus du graphique, ou même uniquement des graphiques à secteurs. Personnellement, j'aurais les deux, comme mentionné sur les petits multiples:
Voulez-vous des frites avec ça?
Mon hypothèse était que nous voulions également connaître le rapport hamburger / repas. Chaque repas contient un burger. Tous les repas ne sont pas combinés.
- voulons-nous seulement savoir si une personne mange parfois des combomeals?
- ou voulons-nous savoir combien de repas de hamburger sont également combomeals?
Si 1., un booléen appliqué au nom / clé / id ferait l'affaire.
Jane mange parfois des combomeals? Vrai faux.
Si 2., nous pourrions appliquer un booléen à chaque repas:
1 cheeseburger, combomeal = vrai
1 cheeseburger, combomeal = vrai
1 cheeseburger, combomeal = faux
1 cheeseburger, combomeal = faux
1 cheeseburger, combomeal = faux
1 cheeseburger, combomeal = faux
1 cheeseburger, combomeal = faux
1 steak haché, combomeal = vrai
1 steak haché, combomeal = vrai
1 steak haché, combomeal = faux
C'est très fastidieux, nous pourrions donc le décomposer en:
Jane mange 10 hamburgers. De ceux-ci, trois sont des combos ("voulez-vous des frites avec ça?").
L'un des combomeals est un menu de hamburger.
Deux des combomeals sont le menu cheeseburger.
Les autres sont des hamburgers simples. 5 fromages, deux boeuf.
Ce diagramme était une tentative de visualiser cela. J'ai dans cette version gardé les tranches de tarte pour le rendre plus clair. La chose à ce sujet est qu'il ne serait pas difficile de commencer à appliquer de grands ensembles de données et%:
Mais je pense que la meilleure façon est de repenser.
Une autre façon de voir les choses est de le faire vraiment très simplement. Ici, il est plus facile de voir quels groupes d'âge, quels groupes de poids et toutes les données que vous ne "disposez" pas peuvent nous dire. Les données dont vous disposez ne sont pas liées à l'espace, ce sont uniquement des unités (kg, années, chiffres + clé / id / nom):
(Edit: Oeuf sur mon visage: j'ai remplacé ces images par des images plus correctes, en ce qui concerne "tous les repas sont des hamburgers, pas tous les repas sont combinés")
Ce serait assez facile à développer avec plus de personnes:
Ou, encore mieux, si vous comparez les groupes d'âge de 10, 20 et 30 ans, vous pourriez faire une visualisation statistique assez simple à lire:
..Et juste pour être aussi clair que possible; voici un exemple de cette façon de penser. Ce graphique montre les survivants du Titanic, ratio équipage, classe, hommes, femmes.
Il y aura de nombreuses autres solutions, ce ne sont que quelques réflexions.
Je pourrais continuer encore et encore, mais maintenant je me suis épuisé et probablement tout le monde.
Outils pour jouer avec:
gephi
Gapminder Voir cette
phénoménale présentation TED par Hans Rosling - love that guy
Graphiques Google
somvis
Raphaël
Exposition du MIT (anciennement Similie)
d3
Highcharts
Lectures complémentaires:
PJ Onori; En défense de dur
Edward Tufte: de belles preuves
Edward Tufte: Visionner des informations
Edward Tufte: L'affichage visuel d'informations quantitatives
Explications visuelles: images et quantités, preuves et récit
Homme, Alan., 2007 Illustration une perspective théorique et contextuelle Lausanne, Suisse; New York, NY: AVA Academia
Isles, C. & Roberts, R., 1997. En lumière visible, photographie et classification dans l'art, la science et le quotidien, Museum of modern art Oxford.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Lectures en visualisation de l'information: utiliser la vision pour penser 1ère éd., Morgan Kaufmann.
Grafton, A. et Rosenberg, D., 2010. Cartographies du temps: une histoire de la chronologie, Princeton Architectural Press.
Lima, M., 2011. Complexité visuelle: Mapping Patterns of Information, Princeton Architectural Press.
Bounford, T., 2000. Diagrammes numériques: comment concevoir et présenter efficacement des informations statistiques 0 éd., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Beautiful Visualization: Looking at Data through the Eyes of Experts 1ère éd., O'Reilly Media.
Gleick, J., 2011. L'information: une histoire, une théorie, un déluge, Panthéon