Je n'ai pas encore essayé de contenir des données à prédire, mais mon intuition est que la fixation des covariances à zéro dans votre modèle est analogue à la prévision d'un DV en combinant un ensemble d'équations de régression linéaire séparées, à un seul IV. Contrairement à cette approche, la régression multiple tient compte de la covariance dans les IV lors de la production d'un modèle d'équations pour prédire la DV. Cela améliore certainement l'interprétabilité en séparant les effets directs des effets indirects qui se produisent entièrement dans l'ensemble des IV inclus. Honnêtement, je ne sais pas si cela améliore nécessairement la prédiction du DV. Étant un utilisateur de statistiques et non un statisticien, j'ai rassemblé la fonction de test de simulation suivante pour donner une réponse incomplète (apparemment, "Oui, la précision prédictive s'améliore lorsque le modèle intègre la covariance IV") dans ce cas, espérons-le, analogue ...
simtestit=function(Sample.Size=100,Iterations=1000,IV.r=.3,DV.x.r=.4,DV.z.r=.4) {
require(psych); output=matrix(NA,nrow=Iterations,ncol=6); for(i in 1:Iterations) {
x=rnorm(Sample.Size); z=rnorm(Sample.Size)+x*IV.r
y=rnorm(Sample.Size)+x*DV.x.r+z*DV.z.r
y.predicted=x*lm(y~x+z)$coefficients[2]+z*lm(y~x+z)$coefficients[3]
bizarro.y.predicted=x*lm(y~x)$coefficients[2]+z*lm(y~z)$coefficients[2]
output[i,]=c(cor(y.predicted,y)^2,cor(bizarro.y.predicted,y)^2,
cor(y.predicted,y)^2>cor(bizarro.y.predicted,y)^2,cor(x,z),cor(x,y),cor(y,z))}
list(output=output,percent.of.predictions.improved=100*sum(output[,3])/Iterations,
mean.improvement=fisherz2r(mean(fisherz(output[,1])-fisherz(output[,2]))))}
# Wrapping the function in str( ) gives you the gist without filling your whole screen
str(simtestit())
N= Iterations
nSample.Size
z
= x
+y
= x
+ z
+y
x
z
1y.predicted
2bizarro.y.predicted
output
Iterations
R2121 > 2rx
y
z
output
simtestit()
str( )
R21rpsych
R2R2IV.r
) est plus grand. Puisque vous êtes probablement plus familier avec votre fonction GLM que moi (ce qui n'est pas du tout), vous pouvez probablement changer cette fonction ou utiliser l'idée de base pour comparer les prédictions GLM à travers le nombre d'IV que vous souhaitez sans trop de problèmes. En supposant que cela se produirait (ou se produise) de la même manière, il semblerait que la réponse de base à votre deuxième question soit probablement oui, mais combien dépend de la force de la covariation des IV. Les différences d'erreur d'échantillonnage entre les données retenues et les données utilisées pour ajuster le modèle pourraient compenser l'amélioration de sa précision prédictive dans ce dernier ensemble de données, car encore une fois, l'amélioration semble faible à moins que les corrélations IV ne soient fortes (au moins, dans le cas au maximum de base avec seulement deux IV).