J'ai un ensemble de données de 1000+ échantillons de 19 variables. Mon objectif est de prédire une variable binaire basée sur les 18 autres variables (binaires et continues). Je suis assez confiant que 6 des variables de prédiction sont associées à la réponse binaire, cependant, je voudrais analyser davantage l'ensemble de données et rechercher d'autres associations ou structures qui pourraient me manquer. Pour ce faire, j'ai décidé d'utiliser PCA et le clustering.
Lors de l'exécution de l'ACP sur les données normalisées, il s'avère que 11 composants doivent être conservés afin de conserver 85% de la variance. En traçant les paires, j'obtiens ceci:
Je ne suis pas sûr de la suite ... Je ne vois aucun motif significatif dans le pca et je me demande ce que cela signifie et si cela pourrait avoir été causé par le fait que certaines des variables sont binaires. En exécutant un algorithme de clustering avec 6 clusters, j'obtiens le résultat suivant qui n'est pas exactement une amélioration bien que certains blobs semblent se démarquer (les jaunes).
Comme vous pouvez probablement le constater, je ne suis pas un expert en PCA, mais j'ai vu quelques tutoriels et comment il peut être puissant pour avoir un aperçu des structures dans un espace de grande dimension. Avec le célèbre jeu de données MNIST (ou IRIS), cela fonctionne très bien. Ma question est: que dois-je faire maintenant pour donner plus de sens à l'APC? Le clustering ne semble rien retenir d'utile, comment puis-je savoir qu'il n'y a pas de modèle dans la PCA ou que dois-je essayer ensuite pour trouver des modèles dans les données de la PCA?