Je serais intéressé de recevoir des suggestions sur le moment d'utiliser les « scores factoriels » par rapport à la somme des scores lors de la construction des échelles. C'est-à-dire des méthodes «raffinées» plutôt que «non raffinées» de notation d'un facteur. D'après DiStefano et al. (2009; pdf ), italiques ajoutés:
Il existe deux classes principales de méthodes de calcul des scores factoriels: raffinée et non raffinée. Les méthodes non raffinées sont des procédures cumulatives relativement simples qui fournissent des informations sur le placement des individus dans la distribution des facteurs. La simplicité se prête à certaines fonctionnalités intéressantes, c'est-à-dire que les méthodes non raffinées sont à la fois faciles à calculer et à interpréter. Des méthodes de calcul raffinées créent des scores factoriels en utilisant des approches plus sophistiquées et techniques. Elles sont plus exactes et complexes que les méthodes non raffinées et fournissent des estimations qui sont des scores standardisés.
À mon avis, si l'objectif est de créer une échelle qui peut être utilisée dans toutes les études et tous les paramètres, alors une simple somme ou un score moyen de tous les éléments de l'échelle est logique. Mais disons que le but est d'évaluer les effets d'un programme sur le traitement et que le contraste important se situe au sein de l'échantillon - traitement vs groupe témoin. Y a-t-il une raison pour laquelle nous préférerions les scores factoriels à l'échelle des sommes ou des moyennes?
Pour être concret sur les alternatives, prenez cet exemple simple:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
They are more exact
Cet accent supplémentaire ne devrait pas nous distraire du fait que même les scores des facteurs sont inévitablement inexacts ("sous-déterminés").
"more exact"
. Parmi les scores factoriels calculés linéairement, la méthode de régression est la plus "exacte" dans le sens "la plus corrélée avec les vraies valeurs inconnues". Alors oui, plus exact (dans l'approche algébrique linéaire), mais pas totalement exact.