Alors que je me prépare pour une conférence que je donnerai bientôt, j'ai récemment commencé à creuser dans deux outils principaux (gratuits) pour la visualisation interactive des données: GGobi et mondrian - tous deux offrent une large gamme de capacités (même si elles sont un peu boguées).
Je souhaite vous demander votre aide pour articuler (à la fois pour moi et pour mon futur public) Quand est-il utile d'utiliser des graphiques interactifs? Soit pour l'exploration de données (pour nous-mêmes) et la présentation de données (pour un "client")?
Pour expliquer les données à un client, je peux voir la valeur de l'animation pour:
- Utiliser "identifier / relier / brosser" pour voir quel point de données dans le graphique est quoi.
- Présentation d'une analyse de sensibilité des données (ex: "si nous supprimons ce point, voici ce que nous obtiendrons)
- Montrant l'effet de différents groupes dans les données (par exemple: "regardons nos graphiques pour les hommes et maintenant pour les femmes")
- Montrer l'effet du temps (ou de l'âge, ou en général, offrir une autre dimension à la présentation)
Pour l'exploration des données nous-mêmes, je peux voir la valeur de l'identification / la liaison / le brossage lors de l'exploration d'une valeur aberrante dans un ensemble de données sur lequel nous travaillons.
Mais à part ces deux exemples, je ne sais pas quelle autre utilisation pratique ces techniques offrent. Surtout pour notre propre exploration de données!
On pourrait faire valoir que la partie interactive est bonne pour explorer (par exemple) un comportement différent de différents groupes / grappes dans les données. Mais lorsque (dans la pratique) je me suis approché d'une telle situation, ce que j'avais tendance à faire était d'exécuter les procédures statistiques pertinentes (et les tests post-hoc) - et ce que j'ai trouvé significatif, je tracerais ensuite avec des couleurs divisant clairement les données au groupes concernés. D'après ce que j'ai vu, il s'agit d'une approche plus sûre que de "se demander" les données (ce qui pourrait facilement conduire à un dragage de données (si la portée de la comparaison multiple nécessaire pour la correction n'est même pas claire).
Je serais très heureux de lire votre expérience / vos réflexions à ce sujet.
(cette question peut être un wiki - bien qu'elle ne soit pas subjective et une réponse bien pensée gagnera volontiers mon "réponse" :))