Je voudrais suggérer que ce phénomène (d'un test global non significatif en dépit d'une variable individuelle significative) peut être compris comme une sorte "d'effet masquant" global et que, bien qu'il puisse vraisemblablement découler de variables explicatives multicolinéaires, il n'est pas nécessaire qu'il en soit ainsi. ça du tout. Il s'avère également que cela n'est pas dû non plus à de nombreux ajustements de comparaison. Ainsi, cette réponse ajoute certaines qualifications aux réponses déjà parues, ce qui suggère au contraire que la multicolinéarité ou les comparaisons multiples doivent être considérées comme les coupables.
Pour établir la plausibilité de ces assertions, générons une collection de variables parfaitement orthogonales - aussi non colinéaires que possible - et une variable dépendante qui est explicitement déterminée par le premier des explandes (plus une bonne quantité d’erreur aléatoire). indépendant de tout le reste). En R
cela peut être fait (de manière reproductible, si vous souhaitez expérimenter) comme
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Ce n'est pas important que les variables explicatives soient binaires; ce qui compte, c’est leur orthogonalité, que nous pouvons vérifier pour nous assurer que le code fonctionne comme prévu, ce qui peut être fait en inspectant leurs corrélations. En effet, la matrice de corrélation est intéressante : les faibles coefficients suggèrent qu’elle y
n’a guère de lien avec les variables sauf la première (qui est inhérente à la conception) et les zéros hors diagonale confirment l’orthogonalité des variables explicatives:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Lançons une série de régressions en utilisant uniquement la première variable, puis les deux premières, etc. Par souci de concision et de comparaison aisée, dans chacune d’elles, je ne montre que la ligne correspondant à la première variable et le test F global:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Regardez comment (a) la signification de la première variable change à peine, (a ') la première variable reste significative (p <0,05) même en tenant compte des comparaisons multiples ( par exemple , appliquer Bonferroni en multipliant la valeur nominale p par le nombre de variables explicatives), (b) le coefficient de la première variable change à peine, mais (c) la signification globale croît de façon exponentielle, augmentant rapidement à un niveau non significatif.
J'interprète cela comme démontrant que l' inclusion de variables explicatives largement indépendantes de la variable dépendante peut "masquer" la valeur p globale de la régression. Lorsque les nouvelles variables sont orthogonales aux variables existantes et à la variable dépendante, elles ne modifieront pas les valeurs p individuelles. (Les petits changements observés ici sont dus au fait que l'erreur aléatoire ajoutée y
est, par accident, légèrement corrélée avec toutes les autres variables.) Une leçon à tirer de cela est que la parcimonie est précieuse : utiliser aussi peu de variables que nécessaire peut renforcer la signification de Les resultats.
Je ne dis pas que cela se produit nécessairement pour l'ensemble de données de la question, à propos de laquelle peu de choses ont été divulguées. Mais savoir que cet effet de masquage peut se produire devrait éclairer notre interprétation des résultats ainsi que nos stratégies de sélection de variables et de construction de modèles.