Il me semble que la fonction principale du PCP est de mettre en évidence des groupes homogènes d'individus, ou inversement (dans le double espace, par analogie avec l'ACP) des schémas d'association spécifiques sur différentes variables. Il produit un résumé graphique efficace d'un ensemble de données multivariées, lorsqu'il n'y a pas trop de variables. Les variables sont automatiquement mises à l'échelle sur une plage fixe (généralement, 0–1), ce qui équivaut à travailler avec des variables standardisées (pour éviter l'influence d'une variable sur les autres en raison d'un problème de mise à l'échelle), mais pour un ensemble de données de très grande dimension (# de variables> 10), vous devez certainement regarder d'autres affichages, comme le graphique de fluctuation ou la carte thermique utilisés dans les études de puces à ADN.
Cela aide à répondre à des questions comme:
- y a-t-il un modèle cohérent de scores individuels qui peut être expliqué par l'appartenance à une classe spécifique (par exemple la différence de genre)?
- X1X2
Dans le graphique suivant des données Iris , on voit clairement que les espèces (ici illustrées en différentes couleurs) présentent des profils très discriminants lorsque l'on considère la longueur et la largeur des pétales, ou que Iris setosa (bleu) sont plus homogènes par rapport à leur longueur de pétale ( c'est-à-dire que leur variance est plus faible), par exemple.
Vous pouvez même l'utiliser comme backend pour des techniques de classification ou de réduction de dimension, comme PCA. Le plus souvent, lorsque vous effectuez une ACP, en plus de réduire l'espace des fonctionnalités, vous souhaitez également mettre en évidence des groupes d'individus (par exemple, y a-t-il des individus qui obtiennent systématiquement un score plus élevé sur une combinaison de variables); ceci est généralement réduit en appliquant une sorte de clustering hiérarchique sur les scores des facteurs et en mettant en évidence l'appartenance au cluster résultant sur l'espace factoriel (voir le package FactoClass R).
Il est également utilisé dans les clustergrams ( Visualizing non hierarchical and hierarchical cluster analyses ) qui vise à examiner comment l'allocation des clusters évolue en augmentant le nombre de clusters (voir aussi, Quels sont les critères d'arrêt pour le clustering hiérarchique agglomératif utilisés en pratique? ).
De tels affichages sont également utiles lorsqu'ils sont liés à des diagrammes de dispersion habituels (qui par construction sont limités aux relations 2D), c'est ce qu'on appelle le brossage et il est disponible dans le système de visualisation de données GGobi ou le logiciel Mondrian .