Taille minimale de l'échantillon pour l'ACP ou l'AF lorsque l'objectif principal est d'estimer seulement quelques composants?

27

Si j'ai un ensemble de données avec observations et variables (dimensions), et généralement est petit ( ), et peut varier de petit ( ) à peut-être beaucoup plus grand ( ). $n$ $p$ $n$ $n=12-16$ $p$ $p = 4-10$ $p= 30-50$

Je me souviens avoir appris que devrait être beaucoup plus grand que pour exécuter l'analyse en composantes principales (ACP) ou l'analyse factorielle (FA), mais il semble que ce ne soit pas le cas dans mes données. Notez que pour mes besoins, je suis rarement intéressé par les principaux composants après PC2. $n$ $p$

Des questions:

Quelles sont les règles de base pour la taille minimale de l'échantillon lorsque PCA est OK à utiliser et quand il ne l'est pas?
Est-il jamais OK d'utiliser les premiers PC même si ou ? $n=p$ $n<p$
Y a-t-il des références à ce sujet?
Est-ce important si votre objectif principal est d'utiliser PC1 et éventuellement PC2:
- simplement graphiquement, ou
- comme variable synthétique puis utilisée dans la régression?

pca sample-size factor-analysis

— Patrick
source

Je me souviens d'avoir lu ce genre de lignes directrices concernant l'analyse factorielle. Êtes-vous également intéressé par cela ou uniquement par l'ACP? De plus, la réponse peut dépendre du type de données que vous traitez, avez-vous un champ d'application spécifique en tête?

— Gala

1

Merci Gael pour les commentaires et références ci-dessous. Maintenant, il me reste à connaître les différences entre FA et PCA. :)

— Patrick

3

Cette question a été largement traitée sur ce site, voir par exemple stats.stackexchange.com/questions/1576/… et stats.stackexchange.com/questions/612/…

— Gala

21

Vous pouvez réellement mesurer si la taille de votre échantillon est "suffisamment grande". Un symptôme de la petite taille de l'échantillon étant trop petit est l'instabilité.

$-1$

— cbeleites soutient Monica
source

Merci cbeleites. Pensez-vous que le bootstrapping sera trop informatif avec n aussi bas que, disons, 16? Pour comprendre, je chercherais simplement une stabilité relative en exécutant de nombreux PCA, en laissant un site en dehors de chaque exécution.

— Patrick

n

$n$

23

$x$ $x$ $5$ $20$ $n \gg p$

Un aperçu assez complet avec de nombreuses références peut être trouvé à http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

$p > n$ $n > 100 p$ était nécessaire. Ils ont également constaté que si le nombre de facteurs sous-jacents reste le même, plus de variables (et pas moins, comme le suggèrent les lignes directrices basées sur le rapport observations-variables) pourraient conduire à de meilleurs résultats avec de petits échantillons d'observations.

Références pertinentes:

Mundfrom, DJ, Shaw, DG et Ke, TL (2005). Recommandations concernant la taille minimale de l'échantillon pour effectuer des analyses factorielles. International Journal of Testing, 5 (2), 159-168.
Preacher, KJ et MacCallum, RC (2002). Analyse factorielle exploratoire dans la recherche en génétique du comportement: récupération des facteurs avec de petits échantillons. Behavior Genetics, 32 (2), 153-161.
de Winter, JCF, Dodou, D. et Wieringa, PA (2009). Analyse factorielle exploratoire avec de petits échantillons. Recherche comportementale multivariée, 44 (2), 147-181.

— Gala
source

5

(+1) Voici un autre article, utilisant la simulation et des ensembles de données réels, qui suggère que la règle empirique N / p ne fonctionne pas très bien dans la pratique, et qui fournit les tailles d'échantillon nécessaires pour obtenir une solution stable et précise dans l'EPT. -contrôle de différents critères de qualité - en fonction du nombre de facteurs et du nombre d'articles (et éventuellement de la demi-largeur de l'IC à 95% de Cronbach, sur la base de la formule de Feldt) à l'échelle psychiatrique: taille d'échantillon requise pour le validation interne des échelles psychiatriques Méthodes Int J Psychiatr Res. Déc 2011; 20 (4): 235-49.

— chl

1

$p\frac{p-1}{2}$ $np$

L'équivalence peut être vue de cette façon: chaque étape de l'ACP est un problème d'optimisation. Nous essayons de trouver quelle direction exprime le plus de variance. c'est à dire:

m a x (a_{i}^{T} * Σ * a_{i})

$max( a_{i}^{T} * \Sigma * a_{i} )$

$\sigma$

sous les contraintes:

a_{i}^{T} * a_{i} = 1

$a_{i}^{T} * a_{i} = 1$

a_{i}^{T} * a_{j} = 0

$a_{i}^{T} * a_{j} = 0$

j < i

$j<i$

$\Sigma$ $\sigma$

Prendre n = p est plus ou moins équivalent à deviner une valeur avec seulement deux données ... ce n'est pas fiable.

$2\frac{n}{p}$

— lcrmorin
source

k

$k$

k

$k$

(p - 1) + (p - 2) + \dots + (p - k)

$(p-1)+(p-2)+\cdots+(p-k)$

p k

$pk$

p (p - 1) / 2

$p(p-1)/2$

— whuber

Le fait est que vous calculez (pk) les coefficients des vecteurs propres à partir des p (p-1) / 2 coefficients de la matrice. Pour une matrice aléatoire, je ne pense pas qu'il existe un moyen de "sauter" certains coefficients calculant des vecteurs propres / valeurs propres.

— lcrmorin

Bien sûr, les algorithmes habituels trouvent les valeurs propres et les vecteurs propres un par un, à partir de la plus grande valeur propre. En outre, ce n'est pas un problème de calcul, mais un problème de comptage du nombre de valeurs estimées - sauf si j'ai mal lu votre réponse?

— whuber

1

J'espère que cela pourrait être utile:

pour FA et PCA

'' Les méthodes décrites dans ce chapitre nécessitent de grands échantillons pour obtenir des solutions stables. Ce qui constitue une taille d'échantillon adéquate est quelque peu compliqué. Jusqu'à récemment, les analystes utilisaient des règles empiriques comme «l'analyse factorielle nécessite 5 à 10 fois plus de sujets que de variables». Des études récentes suggèrent que la taille d'échantillon requise dépend du nombre de facteurs, du nombre de variables associées à chaque facteur et de la façon dont ainsi l'ensemble des facteurs explique la variance des variables (Bandalos et Boehm-Kaufman, 2009). Je vais sortir sur un membre et dire que si vous avez plusieurs centaines d'observations, vous êtes probablement en sécurité. ''

Référence:

Bandalos, DL et MR Boehm-Kaufman. 2009. «Quatre idées fausses courantes dans l'analyse des facteurs exploratoires». Dans Mythes statistiques et méthodologiques et légendes urbaines, édité par CE Lance et RJ Vandenberg, 61-87. New York: Routledge.

extrait de "R in Action" de Robert I. Kabacoff, livre très instructif avec de bons conseils couvrant presque tous les tests statistiques.

— doctorat
source

2

Il semble que vous soyez en train de brancher un livre et de ressasser certains points précédemment basés sur une source secondaire ou tertiaire. Cela ne semble pas très utile. Pourriez-vous au moins fournir la référence complète de Bandalos et Boehm-Kaufman, 2009?

— Gala du