Existe-t-il une bonne raison d'utiliser PCA au lieu de EFA? En outre, l’ACP peut-elle remplacer l’analyse factorielle?


73

Dans certaines disciplines, l’ACP (analyse en composantes principales) est systématiquement utilisée sans justification, et APC et EFA (analyse factorielle exploratoire) sont considérées comme des synonymes.

J'ai donc récemment utilisé PCA pour analyser les résultats d'une étude de validation d'échelle (21 items sur une échelle de Likert en 7 points, supposée composer 3 facteurs de 7 items chacun) et un critique me demande pourquoi j'ai choisi PCA au lieu de EFA. J'ai lu sur les différences entre les deux techniques, et il semble que l'EFA soit favorisé contre l'APC dans la majorité de vos réponses ici.

Avez-vous de bonnes raisons pour lesquelles PCA serait un meilleur choix? Quels avantages cela pourrait-il apporter et pourquoi cela pourrait-il être un choix judicieux dans mon cas?


1
Excellente question. J'ai tendance à être en désaccord avec la réponse de tntphns et à essayer de donner un point de vue différent plus tard aujourd'hui.
Amibe dit de réintégrer Monica

5
@ amoeba Je vous encourage d'avance. La PCA est simplement une technique de transformation qui peut être (parfois) très utile. Il n'est pas nécessaire de la diaboliser ou de lui attribuer une intention fallacieuse ou inappropriée. Vous pourriez aussi bien excorier un logarithme.
Nick Cox

4
Il ne semble pas que la réponse de ces derniers diabolise la PCA. Pour moi, il semble juste affirmer que la PCA n'est pas basée sur l'hypothèse de variables latentes générant vos données. Si c'est ce que vous essayez de faire, FA est un meilleur choix.
Gay - Rétablir Monica

1
FWIW, je ne faisais pas de commentaires spécifiques sur la réponse de ttphns, mais sur les commentaires et critiques que je rencontre souvent et qui constituent des accusations selon lesquelles la PCA ne fait pas quelque chose pour laquelle elle n’a jamais été conçue ou qui ne convient pas.
Nick Cox

3
@NeilG: L'ACP n'est pas un modèle génératif [probabiliste], car il n'inclut pas de terme de bruit et aucune probabilité n'y est donc associée. Il existe cependant une généralisation probabiliste (PPCA), très proche de la CPA, voir ma réponse ici.
amibe dit de réintégrer Monica

Réponses:


95

Avertissement: @ttnphns connaît très bien PCA et FA, et je respecte son opinion et ai beaucoup appris de ses nombreuses bonnes réponses sur le sujet. Cependant, j'ai tendance à être en désaccord avec sa réponse ici, ainsi qu'avec d'autres (nombreux) messages sur ce sujet ici sur CV, pas seulement le sien; ou plutôt, je pense qu'ils ont une applicabilité limitée.


Je pense que la différence entre PCA et FA est surestimée.

Regardez cela comme ça: les deux méthodes tentent de fournir une approximation de rang inférieur d'une matrice de covariance (ou de corrélation) donnée. "Bas rang" signifie que seul un nombre limité (faible) de facteurs latents ou de composantes principales est utilisé. Si la matrice de covariance des données est , les modèles sont les suivants:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Ici, est une matrice à colonnes (où est généralement choisi pour être un petit nombre, ), représentant composantes ou facteurs principaux, est une matrice d'identité et est une diagonale matrice. Chaque méthode peut être formulée de la manière suivante: trouver (et le reste) minimise la [norme de] la différence entre le côté gauche et le côté droit. k k k < n k I Ψ WWkkk<nkIΨW

PPCA signifie PCA probabiliste , et si vous ne savez pas ce que c'est, cela n'a pas tellement d'importance pour le moment. Je voulais le mentionner, car il s’intègre parfaitement entre PCA et FA, avec une complexité de modèle intermédiaire. Cela met également en perspective la différence prétendument importante entre PCA et FA: même s’il s’agit d’un modèle probabiliste (exactement comme FA), elle s'avère en réalité presque équivalente à PCA ( couvre le même sous-espace).W

Plus important encore , notez que les modèles ne diffèrent que dans la façon dont ils traitent la diagonale de . Au fur et à mesure que la dimension augmente, la diagonale devient de moins en moins importante (car il n'y a que éléments sur la diagonale et éléments sur la diagonale). En conséquence, pour le grand il n’ya généralement pas beaucoup de différence entre PCA et FA, une observation rarement appréciée. Pour les petits ils peuvent en effet être très différents. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Maintenant, pour répondre à votre question principale, pourquoi les gens de certaines disciplines semblent-ils préférer l’ACP? Je suppose que cela se résume au fait que c'est mathématiquement beaucoup plus facile que FA (ce n'est pas évident d'après les formules ci-dessus, il faut donc me croire ici):

  1. PCA - ainsi que PPCA, qui n'est que légèrement différent, - a une solution analytique, contrairement à FA. Donc, FA doit être numériquement ajusté, il existe différents algorithmes pour le faire, donnant éventuellement des réponses différentes et fonctionnant sous des hypothèses différentes, etc. etc. Dans certains cas, certains algorithmes peuvent rester bloqués (voir par exemple "les cas hywood"). Pour PCA, vous effectuez une décomposition propre et vous avez terminé. FA est beaucoup plus en désordre.

    Techniquement, PCA fait simplement pivoter les variables et c'est pourquoi on peut parler de simple transformation, comme l'a fait @NickCox dans son commentaire ci-dessus.

  2. La solution PCA ne dépend pas de : vous pouvez trouver les trois premiers PC ( ) et les deux premiers seront identiques à ceux que vous trouveriez si vous définissiez initialement . Ce n'est pas vrai pour FA: la solution pour n'est pas nécessairement contenue dans la solution pour . C'est contre-intuitif et déroutant.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Bien sûr, FA est un modèle plus souple que la PCA (après tout, il a plus de paramètres) et peut souvent être plus utile. Je ne discute pas contre cela. Ce que je conteste, c’est l’affirmation selon laquelle ils sont très différents sur le plan conceptuel, PCA parlant de "décrire les données" et FA, de "trouver des variables latentes". Je ne vois tout simplement pas que c'est aussi vrai [presque] du tout.

Pour commenter certains points spécifiques mentionnés ci-dessus et dans les réponses liées:

  • "dans PCA, le nombre de dimensions à extraire / conserver est fondamentalement subjectif, alors que dans EFA, le nombre est fixe et vous devez généralement vérifier plusieurs solutions" - eh bien, le choix de la solution est toujours subjectif voyez toute différence conceptuelle ici. Dans les deux cas, est (subjectivement ou objectivement) choisi pour optimiser le compromis entre l'ajustement du modèle et la complexité du modèle.k

  • "FA est capable d'expliquer les corrélations par paires (covariances). L'ACP ne peut généralement pas le faire" - pas vraiment, les deux expliquent de mieux en mieux les corrélations à mesure que grandit.k

  • Parfois, une confusion supplémentaire survient (mais pas dans les réponses de @ ttnphns!) En raison des pratiques différentes dans les disciplines utilisant PCA et FA. Par exemple, il est courant de faire tourner les facteurs dans FA pour améliorer l’interprétabilité. Cela se fait rarement après la PCA, mais en principe rien ne l’empêche. Ainsi, les gens ont souvent tendance à penser que la FA vous donne quelque chose "d'interprétable", contrairement à la PCA, mais il s'agit souvent d'une illusion.

Enfin, permettez-moi de souligner encore une fois que pour un très petit nombre les différences entre PCA et FA peuvent effectivement être grandes, et que certaines des revendications en faveur de FA sont faites avec le plus petit en tête. Comme exemple extrême, pour un seul facteur peut toujours parfaitement expliquer la corrélation, mais un PC peut ne pas le faire assez mal.n n = 2nnn=2


Mise à jour 1: modèles génératifs des données

Vous pouvez voir dans le nombre de commentaires que ce que je dis est considéré comme controversé. Au risque d’inonder encore plus la section de commentaires, voici quelques remarques sur les "modèles" (voir les commentaires de @ttnphns et @gung). @ttnphns n'aime pas que j'ai utilisé le mot "modèle" [de la matrice de covariance] pour faire référence aux approximations ci-dessus; c'est une question de terminologie, mais ce qu'il appelle des "modèles" sont des modèles probabilistes / génératifs des données :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Notez que PCA n'est pas un modèle probabiliste et ne peut pas être formulé de cette manière.

La différence entre PPCA et FA réside dans le terme de bruit: PPCA suppose la même variance de bruit pour chaque variable, alors que FA suppose des variances différentes ("unicité"). Cette différence mineure a des conséquences importantes. Les deux modèles peuvent être adaptés à un algorithme général de maximisation des attentes. Pour FA, aucune solution analytique n'est connue, mais pour PPCA, on peut déduire analytiquement la solution vers laquelle EM convergera ( et ). Il s'avère que a des colonnes dans le même sens mais avec une longueur inférieure à celle des chargements PCA standard (j’ignore les formules exactes). Pour cette raison, je pense à PPCA comme "presque" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW dans les deux cas couvrent le même "sous-espace principal".

La preuve ( Tipping and Bishop 1999 ) est un peu technique; la raison intuitive pour laquelle la variance homogène du bruit conduit à une solution beaucoup plus simple est que a les mêmes vecteurs propres que pour toute valeur de , mais ce n'est pas vrai pour .C σ 2 C - ΨCσ2ICσ2CΨ

Donc oui, @gung et @ttnphns ont raison de dire que FA est basé sur un modèle génératif et que PCA ne l'est pas, mais je pense qu'il est important d'ajouter que PPCA est également basé sur un modèle génératif, mais est "presque" équivalent à PCA. . Ensuite, il semble ne plus y avoir de différence si importante.


Mise à jour 2: Comment se fait-il que la PCA fournisse la meilleure approximation possible de la matrice de covariance, alors qu'il est notoire de rechercher une variance maximale?

La PCA a deux formulations équivalentes: par exemple, le premier PC est (a) celui qui maximise la variance de la projection et (b) celui qui génère une erreur de reconstruction minimale. De manière plus abstraite, l'équivalence entre maximiser la variance et minimiser l'erreur de reconstruction peut être vue à l'aide du théorème Eckart-Young .

Si est la matrice de données (avec les observations sous forme de lignes, les variables sous forme de colonnes et les colonnes étant supposées être centrées) et si sa décomposition SVD est , alors il il est bien connu que les colonnes de sont des vecteurs propres de la matrice de dispersion (ou de la matrice de covariance, si elles sont divisées par le nombre d'observations) et sont donc des axes maximisant la variance (c'est-à-dire les axes principaux). Mais selon le théorème d’Eckart-Young, les premiers PC fournissent la meilleure approximation de rang de :XX=USVVC=XX=VS2VkkXXk=UkSkVk(cette notation signifie que vous ne prenez que plus grandes valeurs singulières / vecteurs) minimise .kXXk2

Les premiers PC fournissent non seulement le meilleur rank- approximation , mais aussi à la matrice de covariance . En effet, , et la dernière équation fournit la décomposition SVD de (car est orthogonal et est en diagonale). Le théorème d'Eckert-Young nous dit donc que la meilleure approximation de rang de est donnée par . Cela peut être transformé en remarquant quekkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS sont des chargements PCA, et donc

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

La ligne de fond ici est que comme indiqué au début.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Mise à jour 3: démonstration numérique que PCA FA quandn

@Ttnphns m'a encouragé à fournir une démonstration numérique de mon affirmation selon laquelle, à mesure que la dimensionnalité grandit, la solution PCA se rapproche de la solution FA. Ici ça va.

J'ai généré une matrice de corrélation aléatoire avec de fortes corrélations non diagonales. J'ai ensuite pris le bloc supérieur carré haut à gauche de cette matrice avec variables pour étudier l'effet de la dimensionnalité. Pour chaque , j'ai exécuté PCA et FA avec un nombre de composantes / facteurs , et pour chaque I calculé l'erreur de reconstruction non diagonale (notez que sur la diagonale, FA reconstruit parfaitement , à cause du200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨterme, alors que PCA ne le fait pas; mais la diagonale est ignorée ici). Ensuite, pour chaque et , j’ai calculé le rapport entre l’erreur de diagonale hors PCA et l’erreur de diagonale FA. Ce rapport doit être supérieur à car FA fournit la meilleure reconstruction possible.nk1

Erreur de reconstruction hors diagonale entre PCA et FA

A droite, différentes lignes correspondent à différentes valeurs de , et est indiqué sur l'axe horizontal. Notez que lorsque augmente, les ratios (pour tous les ) s'approchent de , ce qui signifie que PCA et FA produisent approximativement les mêmes charges, PCA FA. Avec un relativement petit , par exemple lorsque , la PCA est [attendue] pire, mais la différence n’est pas très forte pour petit , et même pour le rapport est inférieur à .knnk1nn=25kk=51.2

Le rapport peut devenir grand lorsque le nombre de facteurs devient comparable au nombre de variables . Dans l'exemple que j'ai donné ci-dessus avec et , FA obtient erreur de reconstruction, contrairement à PCA, c'est-à-dire que le rapport serait infini. Mais pour en revenir à la question initiale, lorsque et , APC que modérément à perdre FA pour expliquer la partie hors diagonale de .knn=2k=10n=21k=3C

Pour un exemple illustré de PCA et FA appliquée à un jeu de données réel (jeu de données Wine avec ), voir mes réponses ici:n=13


2
J'étais sur le point de poser une question sur la différence mathématique entre les techniques, car la plupart des réponses (sinon excellentes) sur le sujet ici ne font pas de comparaisons mathématiques explicites. Cette réponse est exactement ce que je cherchais.
shadowtalker

2
Ceci est très précieux, compte non plié avec une nouvelle perspective. La mise en place de PPCA en tant que technique intermédiaire est cruciale - c'est à partir de là que votre opinion grandit. Puis-je vous demander de laisser plus de lignes sur PPCA? - Qu'est-ce que , comment est-il estimé (brièvement) et qu'est-ce qui le différencie de afin que les PPC (à la différence des facteurs) remplissent le sous-espace des variables et qu'un PPC ne dépende pas de . σ2Ψk
ttnphns

3
Je continue d’être d’accord avec ce qui a été dit ici, et la distinction que FA est basée sur des variables latentes alors que PCA n’est qu’une transformation des données. Cependant, ceci est très bien motivé et une position contraire utile. Cela contribue à la qualité de ce fil. +1
félicitations - Rétablir Monica

5
@ amoeba VOTRE RÉPONSE EST GRANDE. C'est tellement clair et gratifiant. Merci de partager votre vision.
Subhash C. Davar

2
@ user795305 Toutes mes excuses, j'ai oublié de répondre. Le modèle FA écrit dans la mise à jour 1 est correct. Le latent est en effet supposé être de et indépendant de . Les solutions ML pour et ne réduisent en effet PAS la norme de comme je l’ai écrit dans la mise à jour 2; c'était bâclé et incorrect. Je devrais le réparer, merci. Cependant, je pense que l’on peut dire que la solution ML est telle que ; c'est simplement que la fonction de perte ici n'est pas la norme de la différence mais une expression plus compliquée (probabilité de donné ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
l'amibe dit de réintégrer Monica

27

Comme vous l'avez dit, vous connaissez les réponses pertinentes . voir aussi : So, as long as "Factor analysis..."+ quelques derniers paragraphes; et la liste du bas ici . En bref, la PCA est principalement une technique de réduction des données, tandis que la FA est une technique de modélisation des caractères latents. Parfois, ils donnent des résultats similaires; mais dans votre cas - parce que vous avez probablement envie de construire / valider des traits latents comme de vraies entités - utiliser FA serait plus honnête et vous ne devriez pas préférer PCA dans l'espoir que leurs résultats convergent. D'autre part, chaque fois que vous avez pour objectif de résumer / simplifier les données (pour une analyse ultérieure, par exemple), vous préférez l’ACP, car elle n’impose aucun modèle solide (qui pourrait ne pas être pertinent) pour les données.

Pour rappel, PCA vous donne des dimensions qui peuvent correspondre à des constructions subjectivement significatives , si vous le souhaitez, tandis que EFA pose que ce sont même des caractéristiques secrètes qui ont réellement généré vos données et vise à les trouver. Dans FA, l'interprétation des dimensions (facteurs) est en attente - que vous puissiez ou non attribuer un sens à une variable latente, elle "existe" (FA est essentialiste), sinon vous devriez la supprimer du modèle ou obtenir davantage de données à l'appui. il. En ACP, la signification d’une dimension est facultative.

Et encore une fois en d'autres termes: lorsque vous extrayez des m facteurs ( facteurs distincts des erreurs), ces quelques facteurs expliquent (presque) toutes les corrélations entre variables, de sorte que les variables ne peuvent de toute façon pas être corrélées via les erreurs. Par conséquent, tant que les "facteurs" sont définis comme des traits latents qui génèrent / lient les données corrélées, vous avez tous les indices pour interpréter cela - ce qui est responsable des corrélations. En ACP (extraire les composants comme si "facteurs"), les erreurs (peuvent) toujours être corrélées entre les variables; vous ne pouvez donc pas prétendre que vous avez extrait quelque chose d'assez propre et exhaustif pour être interprété de cette façon.

Vous voudrez peut-être lire mon autre réponse , plus longue dans la discussion en cours, pour obtenir des détails sur des expériences théoriques et de simulation afin de déterminer si la PCA est un substitut viable de la FA. Faites également attention aux réponses exceptionnelles de @amoeba données sur ce fil.


Upd : Dans leur réponse à cette question, @amoeba, qui y était opposé, a présenté une technique (peu connue), la PPCA, à mi-chemin entre la PCA et la FA. Cela a naturellement lancé la logique selon laquelle PCA et FA vont dans une même direction plutôt que dans l'autre sens. Cette approche valable élargit ses horizons théoriques. Mais cela peut masquer la différence pratique importante que FA reconstitue (explique) toutes les covariances par paires avec quelques facteurs, alors que PCA ne peut pas le faire avec succès (et quand il le fait parfois - c’est parce qu’il est arrivé à mime FA).


Merci pour votre réponse! Les résultats de FA convergent en réalité pour la plupart avec ceux obtenus par PCA. La seule chose à faire est que les auteurs de l'étude initiale (la mienne est une traduction + validation) ont utilisé une analyse PCA. Cela suffit-il à conserver l'analyse de la PCA dans mon document et peut-être à ajouter une phrase expliquant que les résultats de l'AF convergent, ou devrais-je remplacer l'ACP par l'AF? Notez que le critique ne nous demande pas explicitement de le faire, il demande simplement de justifier pourquoi nous avons choisi un PCA au lieu de FA.
Carine

Je pense que si les auteurs ont utilisé PCA mais qu'une approche plus stricte / honnête fait appel à l'EPT, vous devez laisser tomber une ligne de critique, puis effectuer l'APC ou à la fois PCA et EFA, afin de comparer les résultats.
ttnphns

2
Notez également la différence selon laquelle dans PCA le nombre de dimensions à extraire / conserver est fondamentalement subjectif, alors que dans EFA le nombre est fixe, vous devez généralement vérifier plusieurs solutions, par exemple 3 à 5 facteurs, pour déterminer le degré de leur reproduire la matrice de corrélation et à quel point ils sont interprétables. La FA est plus fastidieuse, c'est pourquoi les gens préfèrent souvent utiliser la PCA dans les cas où une approche consciencieuse appelle à essayer un certain nombre de laissez-passer EPT.
ttnphns

Voir aussi l'entrée Wikipedia: en.wikipedia.org/wiki/…
RobertF

15

Dans cette réponse (une seconde et additionnelle à une autre ), je vais essayer de montrer en images que PCA ne restitue pas bien une covariance (alors qu'elle restaure - maximise - la variance de manière optimale).

Comme dans un certain nombre de mes réponses sur l’ACP ou l’analyse factorielle, je vais passer à la représentation vectorielle des variables dans l’ espace du sujet . Dans ce cas, il ne s'agit que d'un graphique de chargement montrant les variables et leurs chargements de composants. Nous avons donc obtenu et les variables (nous n'en avions que deux dans le jeu de données), leur 1ère composante principale, avec les chargements et . L'angle entre les variables est également marqué. Les variables étant centrées sur les variables préliminaires, leurs longueurs au carré, et sont leurs variances respectives.X1X2Fa1a2h12h22

entrez la description de l'image ici

La covariance entre et est - c’est leur produit scalaire - (ce cosinus est la valeur de corrélation, en passant). Les chargements de PCA, bien sûr, capturent le maximum possible de la variance globale par , la variance de la composanteX1X2h1h2cosϕh12+h22a12+a22F

Maintenant, la covariance , où est la projection de la variable sur la variable (la projection qui est la prédiction de régression de la première à la seconde). Et ainsi la magnitude de la covariance pourrait être rendue par la surface du rectangle ci-dessous (avec les côtés et ).h1h2cosϕ=g1h2g1X1X2g1h2

entrez la description de l'image ici

Selon le "théorème des facteurs" (vous savez peut-être si vous lisez quelque chose sur l'analyse factorielle), la covariance (s) entre les variables doit être reproduite (de près, sinon exactement) par la multiplication des chargements de la ou des variables latentes extraites ( lire ). Soit, par, , dans notre cas particulier (si reconnaître le composant principal comme étant notre variable latente). Cette valeur de la covariance reproduite pourrait être rendue par l'aire d'un rectangle de côtés et . Traçons le rectangle, aligné par le rectangle précédent, à comparer. Ce rectangle est hachuré ci-dessous, et sa zone est surnommée cov * (reproduite cov ).a1a2a1a2

entrez la description de l'image ici

Il est évident que les deux zones sont assez différentes, avec cov * étant considérablement plus grande dans notre exemple. La covariance a été surestimée par les charges de , la 1ère composante principale. Ceci est contraire à ceux qui pourraient s’attendre à ce que PCA, par la seule composante des deux possibles, rétablisse la valeur observée de la covariance.F

Que pourrions-nous faire de notre intrigue pour améliorer la reproduction? Nous pouvons, par exemple, faire pivoter légèrement le faisceau dans le sens des aiguilles d'une montre, même jusqu'à ce qu'il se superpose à . Lorsque leurs lignes coïncident, cela signifie que nous avons forcé à être notre variable latente. Ensuite, le chargement de (projection de sur celui-ci) sera et celui de chargement (projection de sur celui-ci) sera . Ensuite, deux rectangles sont identiques - celui qui a été étiqueté cov , et ainsi la covariance est parfaitement reproduite. Cependant, , la variance expliquée par la nouvelle "variable latente", est inférieure àFX2X2a2X2h2a1X1g1g12+h22a12+a22 , la variance expliquée par l'ancienne variable latente, la 1ère composante principale (comparer et empiler les côtés de chacun des deux rectangles de la photo). Il semble que nous ayons réussi à reproduire la covariance, mais aux dépens de l’explication de la variance. C'est-à-dire en sélectionnant un autre axe latent au lieu du premier composant principal.

Notre imagination ou notre conjecture peut suggérer (je ne le ferai pas et probablement pas le prouver en mathématique, je ne suis pas un mathématicien) que si nous libérons l’axe latent de l’espace défini par et , l’avion lui permettant de balancer un peu vers nous, nous pouvons en trouver une position optimale - appelons-le, disons - grâce à quoi la covariance est à nouveau parfaitement reproduite par les chargements émergents ( ) tandis que la variance expliquée ( ) sera plus grand que , mais pas aussi grand que du composant principal .X1X2Fa1a2a12+a22g12+h22a12+a22F

Je pense que cette condition est réalisable, en particulier dans le cas où l’axe latent est tracé en s’étendant hors du plan de manière à tirer un "capot" de deux plans orthogonaux dérivés, l’un contenant l’axe et et l'autre contenant l'axe et . Ensuite, cet axe latent sera appelé facteur commun , et notre "tentative d'originalité" sera appelée analyse factorielle .FX1X2


Une réponse à la "Mise à jour 2" de @ amoeba concernant PCA.

@amoeba est correct et pertinent pour rappeler le théorème Eckart-Young qui est fondamental pour la PCA et ses techniques congénériques (PCoA, biplot, analyse de la correspondance) basées sur la décomposition de la SVD ou de la protéine propre. Selon elle, premiers axes principaux de minimisent de manière optimale - une quantité égale à , - ainsi que . Ici, représente les données telles que reproduites par les axes principaux. est connu pour être égal à , étant les chargements variables dukX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk Composants.

Cela signifie - t-il que la minimisation reste vraie si nous ne considérons que des parties non diagonales des deux matrices symétriques? Inspectons-le en expérimentant.||XXXkXk||2

500 10x6matrices aléatoires ont été générées (distribution uniforme). Pour chacune, après avoir centré ses colonnes, une ACP a été réalisée et deux matrices de données reconstruites calculées: l’une reconstruite par les composantes 1 à 3 ( abord, comme d’habitude dans PCA), et l’autre reconstruite par les composantes 1, 2 et 4 (c’est-à-dire que le composant 3 a été remplacé par un composant 4 plus faible). L'erreur de reconstruction (somme de la différence au carré = distance euclidienne au carré) a ensuite été calculée pour un , pour l'autre . Ces deux valeurs sont une paire à afficher sur un diagramme de dispersion.XXkk||XXXkXk||2XkXk

L'erreur de reconstruction a été calculée à chaque fois en deux versions: (a) les matrices entières et comparées; (b) seulement les différences de diagonales des deux matrices comparées. Ainsi, nous avons deux nuages ​​de points, avec 500 points chacun.XXXkXk

entrez la description de l'image ici

Nous voyons que sur le graphique "matrice entière", tous les points sont au-dessus de la y=xligne. Ce qui signifie que la reconstruction de la matrice de produit scalaire entière est toujours plus précise par "1 à 3 composants" que par "1, 2, 4 composants". Ceci est conforme au théorème d'Eckart-Young: les premiers composantes principales sont les meilleurs monteurs.k

Toutefois, lorsque nous examinons le graphique "uniquement en dehors des diagonales", nous remarquons un certain nombre de points en dessous de la y=xligne. Il est apparu que la reconstruction des parties non diagonales par "1 à 3 composants" était parfois pire que par "1, 2, 4 composants". Ce qui conduit automatiquement à la conclusion que les premiers composants principaux ne sont pas régulièrement les meilleurs monteurs de produits scalaires non diagonaux parmi les monteurs disponibles en PCA. Par exemple, prendre un composant plus faible au lieu d'un composant plus fort peut parfois améliorer la reconstruction.k

Ainsi, même dans le domaine de la CPA elle-même, les principales composantes principales - qui comparent approximativement la variance globale, comme on le sait, et même toute la matrice de covariance - ne sont pas nécessairement des covariances approximatives non diagonales . Une meilleure optimisation de ceux-ci est donc nécessaire; et nous savons que l’ analyse factorielle est la technique (ou parmi les) qui peut l’offrir.


Suivi de la "Mise à jour 3" de @ amoeba: la PCA aborde-t-elle la FA lorsque le nombre de variables augmente? La PCA est-elle un substitut valide de FA?

J'ai mené un réseau d'études de simulation. Quelques matrices de facteurs de population, les matrices de charge ont été construites en nombres aléatoires et converties en matrices de covariance de population correspondantes sous la forme , étant un bruit diagonal (unique en son genre). variances). Ces matrices de covariance ont été réalisées avec toutes les variances 1, elles étaient donc égales à leurs matrices de corrélation.AR=AA+U2U2

Deux types de structure factorielle ont été conçus - net et diffus . La structure pointue est une structure claire et simple: les chargements sont soit "élevés", soit "bas", sans intermédiaire; et (dans ma conception) chaque variable est fortement chargée exactement par un facteur. Le est donc remarquablement semblable à un bloc. La structure diffuse ne fait pas la différence entre les chargements faibles et élevés: ils peuvent être n'importe quelle valeur aléatoire dans une limite; et aucun motif dans les chargements n'est conçu. Par conséquent, correspondant est plus lisse. Exemples de matrices de population:RR

entrez la description de l'image ici

Le nombre de facteurs était ou . Le nombre de variables a été déterminé par le rapport k = nombre de variables par facteur ; k a exécuté les valeurs dans l'étude.264,7,10,13,16

Pour chacun des rares population construit , ses réalisations aléatoires de distribution de Wishart (en taille de l' échantillon ) ont été générés. Ce sont des échantillons de matrices de covariance . Chacun a été analysé en facteurs par AF (par extraction d’axe principal) ainsi que par ACP . De plus, chacune de ces matrices de covariance a été convertie en matrice de corrélation d'échantillon correspondante qui était également analysée (factorisée) de la même manière. Enfin, j'ai également effectué la factorisation de la matrice "parent", covariance de population (= corrélation) elle-même. La mesure Kaiser-Meyer-Olkin de la pertinence de l'échantillonnage était toujours supérieure à 0,7.R50n=200

Pour les données à 2 facteurs, les analyses ont extrait 2, ainsi que 1, ainsi que 3 facteurs ("sous-estimation" et "surestimation" du nombre correct de régimes de facteurs). Pour les données à 6 facteurs, les analyses ont également extrait 6, ainsi que 4 ainsi que 8 facteurs.

Le but de l’étude était de déterminer les qualités de restauration des covariances / corrélations de FA par rapport à PCA. Par conséquent, des résidus d’éléments non diagonaux ont été obtenus. J'ai enregistré des résidus entre les éléments reproduits et les éléments de la matrice de population, ainsi que des résidus entre les éléments de matrice précédents et les échantillons analysés. Les résidus du 1er type étaient conceptuellement plus intéressants.

Les résultats obtenus après des analyses de covariance d'échantillon et de matrices de corrélation d'échantillon présentaient certaines différences, mais toutes les principales constatations se révélaient similaires. Par conséquent, je ne discute (en montrant les résultats) que des analyses en "mode de corrélation".

1. Ajustement hors diagonale global entre PCA et FA

Les graphiques ci-dessous montrent, en fonction de divers facteurs et de k différents facteurs, le rapport entre le résidu carré moyen hors diagonale produit dans PCA et la même quantité obtenue dans FA . Ceci est similaire à ce que @amoeba a montré dans "Update 3". Les lignes sur le graphique représentent les tendances moyennes sur les 50 simulations (je n’affiche pas les barres d’erreur st.).

(Remarque: les résultats concernent la factorisation de matrices de corrélation d’ échantillons aléatoires , et non la factorisation de la matrice de population parentale: il est ridicule de comparer PCA à FA pour savoir dans quelle mesure ils expliquent une matrice de population - FA gagnera toujours, et si le nombre correct de facteurs est extrait, ses résidus seront presque nuls et le rapport se précipiterait vers l'infini.)

entrez la description de l'image ici

Commentant ces parcelles:

  • Tendance générale: à mesure que k (nombre de variables par facteur) augmente, le rapport global de sous-ajustement PCA / FA diminue à 1. C'est-à-dire, avec plus de variables, l'APC approche l'AF pour expliquer les corrélations / covariances hors diagonale. (Documenté par @amoeba dans sa réponse.) On peut supposer que la loi approximant les courbes est le rapport = exp (b0 + b1 / k), avec b0 proche de 0.
  • Le rapport est plus grand par rapport aux résidus «échantillon moins échantillon reproduit» (tracé de gauche) par rapport aux résidus «population moins échantillon reproduit» (tracé de droite). C’est-à-dire (trivialement), PCA est inférieure à FA pour l’ajustement de la matrice analysée immédiatement. Cependant, les lignes du graphique de gauche ont un taux de décroissance plus rapide. Par conséquent, le ratio est inférieur à 2 de k = 16, comme il est affiché sur le graphique de droite.
  • Avec les résidus «population moins l’échantillon reproduit», les tendances ne sont pas toujours convexes ni même monotones (les coudes inhabituels sont entourés). Ainsi, tant que la parole consiste à expliquer une matrice de population de coefficients via la factorisation d’un échantillon, l’augmentation du nombre de variables ne rapproche pas régulièrement l’ACP de FAA dans sa qualité actuelle, bien que la tendance soit là.
  • Le rapport est plus grand pour les facteurs m = 2 que pour les facteurs m = 6 de la population (les lignes rouges en gras sont en dessous des lignes vertes en gras). Ce qui signifie qu'avec plus de facteurs agissant dans les données, PCA rattrape rapidement FA. Par exemple, sur le graphique de droite, k = 4 donne un rapport d'environ 1,7 pour 6 facteurs, tandis que la même valeur pour 2 facteurs est atteinte à k = 7.
  • Le rapport est plus élevé si nous extrayons plus de facteurs par rapport au nombre réel de facteurs. En d’autres termes, l’ACP n’est que légèrement moins performante que FA si, à l’extraction, nous sous-estimons le nombre de facteurs; et il y perd plus si le nombre de facteurs est correct ou surestimé (comparez les lignes fines aux lignes en gras).
  • Il y a un effet intéressant de la netteté de la structure factorielle qui n'apparaît que si l'on considère les résidus «population moins échantillon reproduit»: comparez les tracés gris et jaune à droite. Si les facteurs de population chargent les variables de manière diffuse, les lignes rouges (m = 6 facteurs) s’effondrent vers le bas. C’est-à-dire que, dans la structure diffuse (comme les chargements de nombres chaotiques), l’ACP (réalisée sur un échantillon) n’est pire que l’AF pour reconstituer les corrélations de la population - même avec un petit k, à condition que le nombre de facteurs dans la population ne soit pas très petit. C’est probablement la situation où la PCA est la plus proche de la FA et que son remplacement est plus justifié. Alors qu’en présence d’une structure de facteur pointue, l’ACP n’est pas aussi optimiste pour reconstruire les corrélations (ou covariances) de la population: elle aborde la FA uniquement dans une perspective big k.

2. Ajustement des éléments par PCA et FA: répartition des résidus

Pour chaque expérience de simulation où la factorisation (par PCA ou FA) de 50 matrices d'échantillons aléatoires à partir de la matrice de population a été réalisée, la distribution des résidus "corrélation de population moins reproduite (par la factorisation)" a été obtenue pour chaque élément de corrélation non diagonal. Les distributions suivaient des modèles clairs, et des exemples de distributions typiques sont décrits ci-dessous. Les résultats après l' affacturage PCA sont bleus à gauche et les résultats après l' affacturage FA sont verts à droite.

entrez la description de l'image ici

La principale conclusion est que

  • Les corrélations de population prononcées, en magnitude absolue, sont restaurées par PCA de manière inégalée: les valeurs reproduites sont surestimées par magnitude.
  • Mais le biais disparaît à mesure que k (rapport entre le nombre de variables et le nombre de facteurs) augmente. Sur l'image, quand il n'y a que k = 4 variables par facteur, les résidus de PCA sont décalés par rapport à 0. Ceci est observé à la fois lorsqu'il existe 2 facteurs et 6 facteurs. Mais avec k = 16, le décalage est à peine visible - il a presque disparu et l’ajustement PCA est proche de l’ajustement FA. Aucune différence d'étalement (variance) des résidus entre PCA et FA n'est observée.

Une image similaire est également observée lorsque le nombre de facteurs extraits ne correspond pas au nombre réel de facteurs: seule la variance des résidus change quelque peu.

Les distributions montrées ci-dessus sur fond gris concernent les expériences avec une structure de facteur nette (simple) présente dans la population. Lorsque toutes les analyses ont été effectuées en situation de structure de facteur de population diffuse , il a été constaté que le biais de la PCA s'estompait non seulement avec l'augmentation de k, mais également avec l'augmentation de m (nombre de facteurs). Veuillez consulter les pièces jointes réduites en arrière-plan jaune de la colonne "6 facteurs, k = 4": il n'y a pratiquement pas de décalage par rapport à 0 observé pour les résultats de l'ACP (le décalage est encore présent avec m = 2, ce qui n'est pas indiqué sur l'image. ).

Estimant que les résultats décrits sont importants, j'ai décidé d'inspecter ces distributions résiduelles plus en profondeur et de tracer les diagrammes de dispersion des résidus (axe des Y) par rapport à la valeur de l'élément (corrélation de population) (axe des X). Ces nuages ​​de points combinent chacun les résultats de toutes les nombreuses (50) simulations / analyses. La ligne d’ajustement LOESS (50% de points locaux à utiliser, noyau Epanechnikov) est mise en surbrillance. Le premier ensemble de parcelles concerne la structure factorielle aiguë de la population (la trimodalité des valeurs de corrélation est donc apparente):

entrez la description de l'image ici

Commentant:

  • Nous voyons clairement le biais (décrit ci-dessus) de reconstruction qui caractérise l’ACP en tant que courbe de loess asymétrique et négative: les corrélations de population importantes en valeur absolue sont surestimées par l’ACP d’échantillons de données. FA est non biaisé (loess horizontal).
  • Au fur et à mesure que k grandit, le biais de la PCA diminue.
  • La PCA est biaisée quel que soit le nombre de facteurs présents dans la population: avec 6 facteurs existants (et 6 extraits lors des analyses), elle est tout aussi défectueuse qu'avec 2 facteurs existants (2 extraits).

Le deuxième ensemble de graphiques ci-dessous concerne la structure en facteurs diffus dans la population:

entrez la description de l'image ici

Encore une fois, nous observons le biais de la PCA. Cependant, contrairement au cas de la structure de facteurs pointue, le biais s’efface à mesure que le nombre de facteurs augmente: avec 6 facteurs de population, la ligne de loess de la PCA n’est pas très éloignée d’être horizontale, même sous k seulement 4. Nous avons exprimé ce qui suit " histogrammes jaunes "plus tôt.

Un phénomène intéressant sur les deux ensembles de diagrammes de dispersion est que les lignes de loess pour PCA sont en S incurvées. Cette courbure montre sous d'autres structures de facteurs de population (charges) construites aléatoirement par moi (j'ai vérifié), bien que son degré varie et soit souvent faible. Si cela découle de la forme en S, alors cette PCA commence à fausser rapidement les corrélations à mesure qu’elles rebondissent à partir de 0 (particulièrement sous un k petit), mais à partir de certaines valeurs autour de 0,30 ou de 40, elle se stabilise. Je ne spéculerai pas pour le moment sur la possible raison de ce comportement, bien que je pense que la "sinusoïde" découle de la nature triginométrique de la corrélation.

Fit by PCA vs FA: Conclusions

En tant qu’ajusteur général de la partie non diagonale d’une matrice de corrélation / covariance, l’ACP - lorsqu’elle est utilisée pour analyser une matrice d’échantillon à partir d’une population - peut remplacer assez bien l’analyse factorielle. Cela se produit lorsque le rapport nombre de variables / nombre de facteurs attendus est suffisamment grand. (La raison géométrique de l'effet bénéfique du ratio est expliquée dans la note de bas de page ) Plus il y a de facteurs, plus le ratio peut être inférieur à celui obtenu avec seulement quelques facteurs. La présence d'une structure factorielle nette (une structure simple existe dans la population) empêche l'APC de s'approcher de la qualité de l'AF.1

L’effet de la structure factorielle nette sur la capacité d’ajustement global de la PCA n’est apparent que dans la mesure où les résidus «population moins l’échantillon reproduit» sont pris en compte. Par conséquent, on peut manquer de le reconnaître en dehors d'un cadre d'étude de simulation - dans une étude d'observation d'un échantillon, nous n'avons pas accès à ces résidus importants.

Contrairement à l'analyse factorielle, l'ACP est un estimateur biaisé (positivement) de l'ampleur des corrélations (ou covariances) des populations qui s'éloignent de zéro. La partialité de la PCA diminue toutefois à mesure que le rapport nombre de variables / nombre de facteurs attendus augmente. La partialité diminue également à mesure que le nombre de facteurs dans la population augmente, mais cette dernière tendance est entravée par une structure de facteurs précise.

Je ferais remarquer que le biais d’ajustement PCA et l’effet de la structure nette sur celle-ci peuvent également être mis en évidence lorsqu’on considère les résidus "échantillon moins échantillon reproduit"; J'ai simplement omis de montrer de tels résultats car ils ne semblent pas ajouter de nouvelles impressions.

En fin de compte, mon conseil très provisoire pourrait être de ne pas utiliser PCA au lieu de FA pour des analyses types (c.-à-d. Avec 10 facteurs ou moins attendus dans la population) , sauf si vous avez 10 fois plus de variables que les facteurs. Et moins il y a de facteurs, plus le ratio est nécessaire. De plus, je ne recommanderais pas d'utiliser PCA à la place de FA à chaque fois que des données avec une structure factorielle bien établie et bien définie sont analysées - comme par exemple lorsque l'analyse factorielle est effectuée pour valider le test psychologique en cours de développement ou déjà lancé ou le questionnaire avec des constructions / échelles articulées . La PCA peut être utilisée comme un outil de sélection initiale et préliminaire d’articles pour un instrument psychométrique.

Limites de l'étude. 1) J'ai utilisé uniquement la méthode d'extraction factorielle PAF. 2) La taille de l'échantillon a été fixée (200). 3) Une population normale a été supposée lors de l'échantillonnage des matrices d'échantillonnage. 4) Pour la structure nette, il a été modélisé un nombre égal de variables par facteur. 5) Construire des charges de facteur de population Je les ai empruntées à partir d'une distribution à peu près uniforme (pour une structure nette - trimodale, c'est-à-dire uniforme en 3 pièces). 6) Il pourrait y avoir des oublis dans cet examen instantané, bien sûr, comme partout.


Note de bas de page . La PCA imitera les résultats de FA et deviendra l'équivalent des corrélations lorsque - comme il est dit ici - les variables d'erreur du modèle, appelées facteurs uniques , deviennent non corrélées. FA cherche à les faire décorrélé, mais PCA ne pas, ils peuvent arriver à être dans Uncorrelated PCA. La principale condition qui peut se produire est lorsque le nombre de variables par nombre de facteurs communs (composants conservés comme facteurs communs) est grand.1

Considérez les images suivantes (si vous devez d’abord apprendre à les comprendre, lisez cette réponse ):

entrez la description de l'image ici

En raison de l'exigence de l'analyse factorielle pour pouvoir restaurer avec succès des corrélations avec quelques mfacteurs communs, les facteurs uniques , caractérisant statistiquement des parties uniques des variables manifestes , doivent être non corrélés. Lorsque PCA est utilisée, les doivent être situés dans le sous - espace de l' espace défini par les car PCA ne laisse pas l'espace des variables analysées. Ainsi - voir l'image de gauche - avec (la composante principale est le facteur extrait) et ( , ) analysés, les facteurs uniques ,UpXp Up-mpXm=1P1p=2X1X2U1U2superposer obligatoirement sur le deuxième composant restant (servant d'erreur d'erreur d'analyse). Par conséquent, ils doivent être corrélés avec . (Sur l'image, les corrélations sont égales aux cosinus des angles entre les vecteurs.) L'orthogonalité requise est impossible et la corrélation observée entre les variables ne peut jamais être restaurée (à moins que les facteurs uniques ne soient des vecteurs nuls, un cas trivial).r=1

Mais si vous ajoutez une autre variable ( ), image de droite et extrayez encore un pr. En tant que facteur commun, les trois doivent être situés dans un plan (défini par les deux composants restants). Trois flèches peuvent s'étendre sur un plan de manière à ce que leurs angles soient inférieurs à 180 degrés. Là la liberté pour les angles émerge. Comme cas particulier possible, les angles peuvent être environ égaux, 120 degrés. Ce n'est déjà pas très loin de 90 degrés, c'est-à-dire de la décorrélation. C'est la situation montrée sur la photo.X3U

Au fur et à mesure que nous ajouterons la 4ème variable, 4 seront étendues sur un espace 3D. Avec 5, 5 pour couvrir 4d, etc. La place pour un grand nombre d' angles simultanément pour atteindre plus près de 90 degrés augmentera. Cela signifie que la marge de manœuvre de PCA pour approcher FA dans sa capacité à ajuster des triangles non diagonaux de matrice de corrélation augmentera également.U

Mais la vraie FA est généralement capable de restaurer les corrélations même avec un faible ratio "nombre de variables / nombre de facteurs" car, comme expliqué ici (et voir la deuxième photo), l’analyse factorielle permet l’utilisation de tous les vecteurs facteurs (facteurs communs et uniques). les uns) de s'écarter de mentir dans l'espace des variables. Il y a donc de la place pour l'orthogonalité de s avec seulement 2 variables et un facteur.UX

Les images ci-dessus donnent également un indice évident sur la raison pour laquelle l'APC surestime les corrélations. Sur la gauche pic, par exemple, , où l' s sont les projections des s sur (charges de ) et l' s sont les longueurs du du (des charges de ) Mais cette corrélation reconstruite par seule équivaut à , c'est-à-dire supérieure à .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
J'adore vos dessins PCA / FA / CCA, et heureusement +1. Cette façon de penser est une chose à laquelle je ne suis pas tout à fait habitué. Il faut donc réfléchir pour la mettre en correspondance avec les calculs que je connais ... Cependant, notez-le ici (ainsi que dans votre autre réponse célèbre FA-vs-PCA avec dessins), vous n’avez que deux variables. Comme je l'ai dit dans ma réponse, lorsqu'il n'y a que deux variables, un facteur dans FA suffit à reproduire parfaitement la covariance à 100% (car il n'y a qu'un degré de liberté dans la matrice de covariance, à part la diagonale), mais un PC ne peut généralement pas le faire. Donc, il n'y a pas de contradiction avec ma réponse.
amibe dit de réintégrer Monica

Hmm, j'espère que je n'ai pas mal compris le but d'une reproduction différente par FA et PCA. La place ici est trop courte pour mon point, je le mettrais dans une autre réponse
Gottfried Helms

2
En réponse à votre mise à jour (qui est votre réponse à ma mise à jour 2): Je suis absolument d'accord avec tout ce que vous avez écrit ici! Les chargements PCA sont la meilleure approximation de bas rang pour la matrice de covariance entière (y compris la diagonale), mais pas nécessairement la meilleure approximation de bas rang pour la partie non diagonale de celle-ci; cette dernière approximation est donnée par l'analyse factorielle. Il semble que nous sommes parvenus à un accord mutuel ici; ou avez-vous toujours le sentiment que certaines parties de ma réponse contredisent votre pensée?
amibe dit de réintégrer Monica

1
@ttnphns: J'ai relu notre discussion ci-dessus et je reviens sur un point que j'avais déjà mentionné dans ma réponse initiale. La PCA essaie de trouver des pondérations se rapprochant de la matrice de covariance entière; FA tente de trouver des charges proches de la partie non diagonale de celle-ci. Mais plus la dimensionnalité est grande, plus la matrice de covariance est définie par sa diagonale, ce qui signifie que, dans les grandes dimensions, PCA commence à s'intéresser principalement à sa partie non diagonale (car la partie diagonale devient si petite). Ainsi, en général, plus la dimensionnalité est grande, plus la PCA se rapproche de FA. Êtes-vous d'accord?
amibe dit de réintégrer Monica

1
Merci pour le ping, merci. Wow, cela semble intéressant. Je vais le lire attentivement mais pas maintenant; Je devrais peut-être le reporter à janvier. Je vais commenter ici une fois que je l'ai lu. En passant, j'ai pensé (à l'arrière de ma tête) à revenir à ce fil et à modifier ma réponse pour la rendre plus "réconciliatrice". Cela pourrait être une bonne occasion de le faire (mais laissez-moi lire ce que vous avez écrit en premier). С наступающим!
amibe dit de réintégrer Monica

4

(Ceci est vraiment un commentaire sur la deuxième réponse de @ttnphns)
En ce qui concerne le type de reproduction de covariance différent en supposant une erreur par PC et par FA, j'ai simplement imprimé les chargements / composantes de variance qui se produisent dans les deux précédents ; juste pour les exemples, j'ai pris 2 variables.

Nous supposons que la construction des deux éléments est composée d’un facteur commun et de facteurs spécifiques. Voici ce factor-loadingsmatrix:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

La matrice de corrélation par ceci est

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Si nous examinons la matrice de chargement L_fa et interprétons comme d'habitude dans FA que f2 et f3 sont des termes d'erreur / une erreur spécifique, nous reproduisons C sans cette erreur, en recevant

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Nous avons donc parfaitement reproduit l'élément non diagonal, qui est la covariance (et la diagonale est réduite)

Si nous examinons la solution pca (peut être réalisée par de simples rotations), nous obtenons les deux facteurs de la même matrice de corrélation:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

En supposant que le second facteur est une erreur, nous obtenons la matrice de covariances reproduite

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

où nous avons surestimé la véritable corrélation. Ceci est dû au fait que nous avons ignoré la covariance partielle négative de correction dans le deuxième facteur = erreur. Notez que le PPCA serait identique au premier exemple.

Avec plus d’articles, cela n’est plus aussi évident mais reste un effet inhérent. Par conséquent, il y a aussi le concept d'extraction MinRes (ou -rotation?) Et j'ai aussi vu quelque chose comme l'extraction du déterminant maximal et ...


[update] En ce qui concerne la question de @amoeba:

J'ai compris le concept de "résidus minimaux" ("MinRes") - la rotation en tant que méthode concordante avec les méthodes antérieures de calcul CFA, pour obtenir la meilleure reproduction des éléments hors diagonale d'une matrice de corrélation. J'ai appris cela dans les années 80/90 et je n'ai pas suivi le développement de l'analyse factorielle (aussi approfondie qu'avant ces dernières années), de sorte que "MinRes" est peut-être démodé.

Pour le comparer à la solution PCA : on peut penser à trouver la solution pc par rotation des facteurs lorsqu'ils sont considérés comme des axes dans un espace euclidien et que les chargements sont les coordonnées des éléments de cet espace vectoriel.
Ensuite, pour une paire d'axes disons x, y les sommes des carrés des chargements de l'axe des x et celle de l'axe des y sont calculées.
À partir de là, on peut trouver un angle de rotation, selon lequel il faut tourner, pour obtenir les sommes des carrés dans les axes tournés maximales sur le x ° et minimales sur l’axe y ° (où le cercle court indique les axes pivotés) .

Faites cela pour toutes les paires d'axes (où seulement toujours l'axe des abscisses est la gauche et l'axe des y est le droit (donc pour 4 facteurs, nous n'avons que 6 paires de rotation)) puis répétez le processus complet jusqu'à obtenir un résultat stable. réalise la méthode dite de "Jacobi" pour la recherche de la solution en composants principaux: il localisera le premier axe de telle sorte qu'il collecte la somme maximale possible de carrés de chargements ("SSqL") (ce qui signifie également "de la variance ") sur un axe de la configuration corrélationnelle actuelle.

Dans la mesure où j'ai compris les choses, " MinRes " devrait examiner les corrélations partielles au lieu de la SSqL; elle ne résume donc pas les carrés des chargements (comme dans Jacobi-pc-rotation), mais résume les produits croisés des chargements de chaque facteur - à l'exception des "produits croisés" (= carrés) des chargements de chaque facteur. article avec lui-même.
Une fois que les critères pour le x et l’axe des y ont été calculés, la procédure est la même que celle décrite pour la rotation de jacobi itérative.

Puisque le critère de rotation est numériquement différent du critère de maximum-SSqL, le résultat / la position de rotation doit être différent de la solution PCA. Si elle converge, elle devrait fournir la corrélation partielle maximale possible sur un axe du premier facteur, la corrélation maximale suivante sur le facteur suivant, etc. L'idée semble être alors de supposer autant d'axes / facteurs que la covariance partielle résiduelle / résiduelle devient marginale.

(Notez que c’est seulement la façon dont j’ai interprété les choses, je n’ai pas vu cette procédure explicitement écrite (ou que je ne me souviens pas pour le moment); une description de mathworld semble l’exprimer plutôt en termes de formules comme dans la réponse d’Amoeba) probablement plus autoritaire. Je viens de trouver une autre référence dans la documentation du projet R et probablement une très bonne référence dans le livre de Gorsuch sur l'analyse factorielle, page 116, disponible via google-books )


Pouvez-vous expliquer à quoi vous faites référence dans votre dernière phrase? Qu'est-ce que l'extraction "MinRes" ou "maximum-déterminant", et comment est-ce lié à ce que vous avez écrit auparavant?
amibe dit de réintégrer Monica

"MinRes" est une méthode d'extraction ou de rotation que j'ai découverte il y a des années dans les monographies de S Mulaik ou de K. Überla sur Factoranalysis. Il se concentre sur la minimisation des éléments non diagonaux résiduels. Parce que cela avait été mentionné explicitement dans le contexte de nombreuses autres méthodes, j’ai supposé que c’était (peut-être légèrement différent) de la mise en œuvre de CFA - à l’époque. J'avais essayé de mettre en œuvre sa raison d'être en tant que critère de rotation, mais je n'avais eu aucun résultat concluant. Je m'attendais aussi à ce que "Maximiser le déterminant" soit connu ici; Je verrai quelle description j'avais reçue il y a 20 ans ...
Gottfried Helms

Ahh, j'ai les deux parties. Une description du critère de rotation pour la logique "minres" est disponible sur go.helms-net.de/stat/fa/minres.htm . Le "déterminant maximal" est le modèle mathématique sous une méthode d'extraction / rotation de certains correspondants, Jeffrey Owen Katz, qui l'a appelé "oblisim" et qui a probablement été développé après notre correspondance. À ce moment-là, c'était au-dessus de ma tête. Quoi qu'il en soit, j'ai essayé de comprendre la méthode, je l'ai formatée et réorganisée dans un fichier Word. Voir go.helms-net.de/stat/fa/oblisim.zip Google pour "oblisim" a donné une entrée de groupe de discussion qui semble l'avoir introduite.
Gottfried Helms

@amoeba: Voici peut-être la première entrée où Jeff Katz a présenté son ensemble de méthodes: mathforum.org/kb/message.jspa?messageID=1516627 C'est en 1998, donc je suppose qu'il y a 20 ans, c'était un peu imprécis ...
Gottfried Helms

2

À mon avis, les notions d '"ACP" et de "FA" ont une dimension différente de celle des notions d' "exploratoire", de "confirmation" ou peut-être d '"inférentielle". Ainsi, chacune des deux méthodes mathématiques / statistiques peut être appliquée avec l'une des trois approches.

Par exemple, pourquoi une hypothèse serait-elle peu logique, alors que mes données ont un facteur général ainsi que la structure d'un ensemble de composants principaux (parce que mon expérience avec mon appareil électronique m'a donné des données presque sans erreur) et que je vérifie mon hypothèse, que les valeurs propres des facteurs ultérieurs apparaissent avec un rapport de 75%? Ceci est alors PCA dans un cadre de confirmation.

D'autre part, il semble ridicule que notre équipe de recherche crée avec beaucoup de travail une batterie d'éléments pour mesurer la violence entre élèves et adopter 3 comportements principaux (agression physique, dépression, recherche de l'aide auprès des autorités / parents) et poser les questions pertinentes. dans cette batterie ... et "de manière exploratrice", calculez combien de facteurs nous avons ... Au lieu de regarder, comment notre échelle contient trois facteurs reconnaissables (en plus des erreurs négligeables spécifiques et peut-être même faussement corrélées). Et après cela, une fois que j'ai confirmé que, effectivement, notre élément de batterie servait l'intention, nous pourrions tester l'hypothèse que, dans les classes d'enfants plus jeunes, les charges sur le facteur indiquant "l'aide à la recherche par les autorités" sont plus élevées que celle des élèves plus âgés. Hmmm, encore une fois confirmatoire ...

Et exploratoire? J'ai une série de mesures tirées d'une recherche sur la microbiologie de 1960 et ils n'avaient pas beaucoup de théorie, mais ont échantillonné tout ce qu'ils pouvaient gérer parce que leur domaine de recherche était très jeune, et j'ai ré-exploré la structure de facteur dominante, en supposant (par exemple) , que toutes les erreurs sont du même montant en raison de la précision optique du microscope utilisé (la ppca-ansatz que je viens d’apprendre). J'utilise ensuite le modèle statistique (et ensuite mathématique) de la FA, mais dans ce cas de manière exploratoire.

C’est au moins comment je comprends les termes.
Peut-être que je suis complètement sur la mauvaise voie ici, mais je ne l'assume pas.


Ps. Dans les années 90, j'ai écrit un petit programme interactif pour explorer la méthode de la PCA et l'analyse factorielle jusqu'au fond. Il a été écrit en Turbo-Pascal, ne peut toujours être exécuté que dans une Dos-Window ("Dos-Box" sous Win7), mais a un très bel attrait: changer de manière interactive les facteurs à inclure ou non, puis faire une rotation, séparer les éléments variance (selon le critère SMC ou le critère égal-variances (ppca?)), activez et désactivez l'option Kaiser, activez ou désactivez les covariances, le tout pendant que le factorloadingsmatrix est visible comme dans un tableur et peut être tourné pour les différentes méthodes de rotation de base.
Ce n'est pas très sophistiqué: pas de chisquare-test par exemple, juste destiné à l'auto-apprentissage de la mécanique mathématique interne. Il possède également un "mode démo", dans lequel le programme s'exécute lui-même, affichant des commentaires explicatifs à l'écran et simulant les entrées au clavier, ce que l'utilisateur ferait normalement.
Tous ceux qui sont intéressés par l'auto-apprentissage ou l'enseignement peuvent le télécharger à partir de mes petites pages de logiciels à l' intérieur- (R) .zip. Développez simplement les fichiers au format zip dans un répertoire accessible par la Dos-Box et appelez "demoall.bat". la troisième partie de la "démonstration", j’ai fait une démonstration de la modélisation des erreurs d’objets spécifiques par rotation à partir d’une solution initialement pca ...


Un portage de votre programme serait intéressant. À propos, mon premier langage de programmation (et l'un des favoris) était [Turbo] Pascal. Je l'ai même utilisé pour écrire des logiciels pour mon travail de diplôme de BS. Puis, quelque temps plus tard, j'ai utilisé Delphi pendant un moment, avec d'autres langages et systèmes. :-)
Aleksandr Blekh

1
@Aleksandr: Une telle importation serait sûrement une bonne idée. cependant ... en attendant, je reçois les "billets pour les seniors" pour le système de trafic local, et bien que je ne sois pas encore fatigué, je suis un peu fatigué de la programmation ... Je pense que "Delphi" était un remplacement naturel pour Turbo Pascal. ; J'avais beaucoup amélioré Inside- [r] jusqu'à un calculateur matriciel "MatMate" utilisant Delphi 6 dans lequel j'ai intégré Inside- [r] comme outil d'aide. Cependant, je pense parfois que cette fonctionnalité très agréable avec pointer-cliquer dans Inside- [r] devrait également être ré-réalisée - en plus de tout langage sophistiqué de script ou d'interprète ...
Gottfried Helms

2

Juste une remarque supplémentaire pour la longue (et vraiment géniale) réponse de @ amoebas sur le caractère de l' estimateur . Ψ

Dans vos déclarations initiales, vous avez trois : pour PCA, , pour PPCA, et pour FA, vous avez laissé indéterminé. Ψ = 0 Ψ = σ 2 I ΨΨΨ=0Ψ=σ2IΨ

Mais il convient de mentionner qu’il existe un nombre infini de divers possibles (sûrement restreints) mais exactement un seul qui minimise le rang de la matrice factorielle. Appelons cela L'estimation standard (automatique) de est la diagonalmatrice basée sur les SMC, nous allons donc écrire ceci sous la forme (et même certains logiciels (semblent) ne tentent pas d’optimiser à partir de alors que est (généralement) nécessaire pour empêcher Heywood-cases / negative-definiteness). Et de plus, même optimiséΨ o p t Ψ s t d Ψ s t d = α 2 D de m de c α 1 α < 1 α 2 Ψ s t dΨ o p t Ψ o p tΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2ne garantirait pas le rang minimal des covariances restantes, nous avons donc généralement ceci non égal: en général . Trouver vraiment est un jeu très difficile, et pour autant que je sache (mais ce n’est plus aussi loin que, disons, il ya 20 ans, quand j’étais plus impliqué et plus proche des livres) c’est toujours un problème non résolu. ΨstdΨopt
Ψopt


Cela reflète bien l’ idéal, le côté mathématique du problème, et ma distinction entre et pourrait également être minime. Une mise en garde plus générale est toutefois qu'il aborde l'ensemble du mécanisme de factorisation du point de vue selon lequel j'étudie uniquement mon échantillon ou ne dispose de données relatives à l'ensemble de la population ; dans le modèle des statistiques inférentielles, où je déduis d'un échantillon imparfait de la population, ma covariance empirique - et donc aussi la factormatrice n'est qu'une estimation, ce n'est qu'une ombre de la "vraie" covariance / factorme. Ainsi, dans un tel cadre / modèle, nous devrions même considérer que nos "erreurs" ne sont pas idéales Ψ o p t ΨΨstdΨoptet pourrait donc être faussement corrélée. Donc, en fait, dans de tels modèles, nous devrions / derrière nous l’ hypothèse quelque peu idéaliste d’une erreur non corrélée, et donc d’une forme strictement diagonale de .Ψ


Bonjour, je ne suis pas sûr de pouvoir bien suivre vos propos ici. Dois-je bien comprendre que par vous entendez une matrice telle que les éléments positifs sont tels que a le rang le plus bas possible (où est la matrice cov / corr)? Je pense que pour le général de taille ce rang le plus bas possible n’est pas beaucoup plus petit que (peut être ou quelque chose d’autre), donc trouver ne semble pas très intéressant. Je fondais ma réponse sur l'hypothèse que FA essaye de trouver et (de taille pour un donnéΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) pour minimiser. CWWΨ
Amibe dit Réintégrer Monica

La différence des points de vue peut être basée sur l'ordre des étapes permettant de résoudre le problème afin d'estimer deux paramètres qui dépendent également l'un de l'autre. Dans ma remarque, je commence par le point suivant: il existe un pour lequel le rang restant, disons , de est minimal et , alors qu'il est possible que nous ayons un certain nombre de facteurs avec en tête. Si nous alors en position minres, un nombre quelconque de facteurs coupés de la droite élimine uniquement la covariance minimale (partielle). ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Si vous commencez avec place, a en général au moins un rang de plus et donc le nombre de facteurs s aura . Ensuite, trouver la quantité minimale possible de covariance amovible en réduisant facteurs (même après la rotation selon des critères tels que pc ou minres) doit être sous-optimal. Clause de non - responsabilité : cela reste une hypothèse - il est difficile de trouver pour les covariances, dont la structure n’est pas auto-fabriquée et toutes les expériences pseudo-aléatoires avec des exemples auto-fabriqués sont moins fiables que les cas empiriques. ΨstdCstds>rs+1kΨopt
Gottfried Helms

OK, je comprends ce que vous dites. Mon point est que pour la plupart des réels, le rang de sera presque identique à , c'est-à-dire . Si on fait simplement tourner après cela, c'est probablement presque équivalent ou très proche de faire de la PCA sur et de ne pas se soucier de FA du tout. C * = C - Ψ o p t C r n » k W r CCC=CΨoptCrnkWrC
Amibe dit de réintégrer Monica

Vrai. Eh bien, je pensais faire plus explicite là où il fallait trouver le cas "idéal" d'où on se réduit à des approximations pratiquement calculables. <br> Et maintenant encore plus en faveur de PCA ;-): Autoriser une corrélation parasite dans l'erreur (dans le second mode d'application / statistiques inférentielles) permet de rapprocher le résultat de celui du type qui a commencé avec l'extraction sur PC ...
Gottfried Helms
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.