Explorer les relations entre les variables est assez vague, mais je suppose que deux des objectifs plus généraux de l'examen des nuages de points sont les suivants;
- Identifier les groupes latents sous-jacents (de variables ou de cas).
- Identifier les valeurs aberrantes (dans un espace univarié, bivarié ou multivarié).
Les deux réduisent les données en résumés plus faciles à gérer, mais ont des objectifs différents. Identifiez les groupes latents, on réduit généralement les dimensions des données (par exemple via PCA), puis explorez si les variables ou les cas se regroupent dans cet espace réduit. Voir par exemple Friendly (2002) ou Cook et al. (1995).
L'identification des valeurs aberrantes peut signifier soit ajuster un modèle et tracer les écarts par rapport au modèle (par exemple, tracer les résidus d'un modèle de régression), soit réduire les données dans ses principales composantes et ne mettre en évidence que les points qui s'écartent du modèle ou du corps principal de données. Par exemple, les boîtes à moustaches en une ou deux dimensions ne montrent généralement que des points individuels qui sont en dehors des charnières (Wickham et Stryjewski, 2013). Le traçage des résidus a la belle propriété d'aplatir les tracés (Tukey, 1977), donc toute évidence de relations dans le nuage de points restant est "intéressante". Cette question sur le CV contient d'excellentes suggestions pour identifier les valeurs aberrantes multivariées.
Une façon courante d'explorer de tels SPLOMS est de ne pas tracer tous les points individuels, mais un type de résumé simplifié, puis peut-être des points qui s'écartent largement de ce résumé, par exemple les ellipses de confiance, les résumés scagnostiques (Wilkinson et Wills, 2008), bivariés boîtes à moustaches, courbes de niveau. Vous trouverez ci-dessous un exemple de tracé d'ellipses qui définissent la covariance et de superposition d'un lœss plus lisse pour décrire l'association linéaire.
(source: statmethods.net )
Quoi qu'il en soit, une intrigue réussie et interactive avec autant de variables nécessiterait probablement un tri intelligent (Wilkinson, 2005) et un moyen simple de filtrer les variables (en plus des capacités de brossage / liaison). De même, tout ensemble de données réaliste devrait avoir la capacité de transformer l'axe (par exemple, tracer les données à l'échelle logarithmique, transformer les données en prenant des racines, etc.). Bonne chance et ne vous en tenez pas à une seule intrigue!
Citations
- Cook, Dianne, Andreas Buja, Javier Cabrera et Catherine Hurley. 1995. Grand tour et poursuite de projection. Journal of Computational and Graphical Statistics 4 (3): 155-172.
- Amical, Michael. 2002. Corrgrammes: affichages exploratoires pour les matrices de corrélation. The American Statistician 56 (4): 316-324. Préimpression PDF .
- Tukey, John. 1977. Analyse exploratoire des données. Addison-Wesley. Lecture, messe.
- Wickham, Hadley et Lisa Stryjewski. 2013. 40 ans de boxplots .
- Wilkinson, Leland et Graham Wills. 2008. Distributions Scagnostiques. Journal of Computational and Graphical Statistics 17 (2): 473-491.
- Wilkinson, Leland. 2005. La grammaire des graphiques . Springer. New York, NY.