J'ai un ensemble de données avec 11 variables et PCA (orthogonal) a été fait pour réduire les données. Décider du nombre de composants à conserver était évident pour moi d'après mes connaissances sur le sujet et le tracé d'éboulis (voir ci-dessous) que deux composants principaux (PC) étaient suffisants pour expliquer les données et les composants restants étaient seulement moins informatifs.
Tracé d'éboulis avec analyse parallèle: valeurs propres observées (vert) et valeurs propres simulées basées sur 100 simulations (rouge). Le tracé éboulis suggère 3 PC, alors que le test parallèle ne suggère que les deux premiers PC.
Comme vous pouvez le voir, seulement 48% de la variance ont pu être capturés par les deux premiers PC.
Le tracé des observations sur le premier plan effectuées par les 2 premiers PC a révélé trois grappes différentes en utilisant la classification agglomérative hiérarchique (HAC) et la classification K-means. Ces 3 groupes se sont avérés très pertinents pour le problème en question et étaient également cohérents avec d'autres résultats. Donc, sauf le fait que seulement 48% de la variance a été capturée, tout le reste était extrêmement bien.
Un de mes deux examinateurs a déclaré: on ne peut pas trop s'appuyer sur ces résultats car seulement 48% de la variance pourrait être expliquée et elle est inférieure à ce qui est requis.
Question
Existe-t-il une valeur requise de la quantité d'écart que l'ACP devrait saisir pour être valide? Ne dépend-elle pas des connaissances du domaine et de la méthodologie utilisées? Quelqu'un peut-il juger du bien-fondé de l'ensemble de l'analyse uniquement en fonction de la simple valeur de la variance expliquée?
Remarques
- Les données sont 11 variables de gènes mesurées par une méthodologie très sensible en biologie moléculaire appelée réaction en chaîne de polymérase quantitative en temps réel (RT-qPCR).
- Les analyses ont été effectuées en utilisant R.
- Les réponses des analystes de données basées sur leur expérience personnelle de travail sur des problèmes réels dans les domaines de l'analyse de microréseaux, de la chimiométrie, des analyses spectrométriques ou similaires sont très appréciées.
- Veuillez envisager de vous soutenir dans la réponse avec des références autant que possible.