Si vous souhaitez une alternative à un nuage de points, un tracé de coordonnées parallèles peut fonctionner, en particulier si vous essayez de montrer la relation entre de nombreuses variables. Vous "avez beaucoup de graphiques", et un tracé de coordonnées parallèles pourrait réduire cela à un! Voici un exemple sur le célèbre ensemble de données Iris , tiré de Wikipedia ( crédit d'image ):
L'intrigue montre très clairement la variation entre les espèces. Vous pouvez choisir de colorier par région géographique ou par niveau de développement. Nous pouvons voir combien il est difficile de distinguer les trois espèces en fonction de la largeur des sépales, mais il y a plus de séparation dans leurs longueurs de pétales. Après un peu d'adaptation mentale (nos yeux peuvent être trop entraînés pour rechercher une "pente ascendante"), il existe évidemment une corrélation positive entre la largeur et la longueur des pétales car des largeurs de pétales plus élevées sont associées à des longueurs de pétales plus élevées. Les fleurs en haut de l'échelle pour l'une, ont tendance à être en haut de l'échelle pour l'autre - cela se manifeste par des lignes à peu près parallèles s'étendant entre les axes. En revanche, il existe une corrélation négative entre la largeur et la longueur du sépale,
L'image parvient à capturer une grande partie des informations disponibles dans toute une matrice de diagrammes de dispersion ( crédit d'image ):
Du côté positif, le graphique à axe parallèle nous donne la possibilité de suivre un individu à travers toutes les variables mesurées: si nous voyons deux points intéressants sur deux diagrammes de dispersion distincts, en particulier des valeurs aberrantes, il peut ne pas être évident s'ils représentent le même individu, mais sur un tracé d'axe parallèle, nous pouvons simplement "suivre le fil". Sur le plan négatif, abandonner tous ces diagrammes de dispersion jette des informations sur les relations multivariées. De toute évidence, nous ne pouvons pas voir certains détails du clustering si clairement (bien que la note Nick Cox recommande des tracés de coordonnées parallèles afin d'étudier la façon dont le clustering "profond" traverse les variables) et les possibilités de discrimination linéaire sont complètement obscurcies. De plus, il peut être difficile de voir les corrélations entre des axes éloignés sur le tracé des coordonnées parallèles,
Si vous avez la possibilité d' interactivité, plutôt qu'une visualisation statique, des tracés de coordonnées parallèles vous offrent quelques options pour contourner ce problème. Par exemple, un utilisateur peut changer l'ordre des axes, en plaçant les variables les unes à côté des autres pour voir plus clairement la relation d'intérêt. Parce que la corrélation positive et négative se comporte si différemment sur un tracé de coordonnées parallèles, il est utile de pouvoir inverser un axe (si vous inversez la direction d'un axe qui a une corrélation négative avec un axe adjacent, alors les lignes entre elles deviennent "démêlées" ). Même sur un tracé statique, il est plus efficace d'inverser les axes pour produire autant de corrélations positives que possible et d'ordonner les axes de manière à rendre les corrélations consécutives aussi fortes que possible, car il est difficile de suivre un brin à travers un enchevêtrement (voir Nick Cox sur ce point).
La caractéristique interactive la plus importante est peut-être le brossage et la liaison : l'utilisateur peut sélectionner par exemple le quartile supérieur d'individus en fonction d'une variable, et leurs lignes sont automatiquement mises en évidence tout au long du tracé. Si sur un autre axe, les points principalement autour du haut sont mis en évidence, cela suggère une corrélation positive (mais nous devons vérifier que le quartile inférieur est associé aux points situés autour du bas de la deuxième variable); si des points principalement autour du bas sont mis en évidence, cela suggère une corrélation négative; si une sélection de points dispersés de façon aléatoire tout le long de l'axe est mise en évidence, cela suggère peu de corrélation.
Avec le nombre de pays que vous incluez, il semble difficile de tous les étiqueter sur n'importe quelle parcelle, sauf si vous avez des contraintes d'espace inhabituellement généreuses. Vous devrez peut-être vous contenter de ne mettre en évidence que les pays individuels les plus importants. Sur une visualisation interactive, les étiquettes de survol peuvent éviter l'encombrement (comme le souligne @xan) et vous pouvez peut-être permettre aux utilisateurs de mettre en surbrillance tous les pays d'une région donnée (ou un autre groupe) qui pourraient afficher automatiquement leurs étiquettes.
Si vous n'utilisez qu'un nombre limité d'étiquettes, vous pouvez envisager de les placer sur les axes eux-mêmes. Si vous regardez La visualisation visuelle des informations quantitatives d' Edward Tufte , Chapitre 7: Éléments graphiques multifonctionnels, vous verrez que cela ressemble étroitement à la suggestion de Tufte pour ce qu'il a appelé un «tableau-graphique» pour les reçus d'impôt du gouvernement ( il peut être plus familier à vous en tant que "slopegraph"). Chaque axe devient une sorte de tableau de classement, ce qui est une fonctionnalité intéressante. (Il existe certaines différences entre les approches, en particulier parce que l'exemple de graphique de tableau de Tufte a utilisé les mêmes unités et échelle sur chaque axe, plutôt que de normaliser les données pour s'adapter, et puisque ses "axes" représentaient une période antérieure et ultérieure, le les pentes avaient une interprétation supplémentaire comme taux de croissance. Ces interprétations ne valent généralement pas pour un tracé de coordonnées parallèles, mais l'idée d'un tableau de classement sur chaque axe le fait.)
Liens et références