Pour un exemple simple, supposons qu'il existe deux modèles de régression linéaire
- Modèle 1 a trois prédicteurs,
x1a
,x2b
etx2c
- Le modèle 2 a trois prédicteurs du modèle 1 et deux prédicteurs supplémentaires
x2a
etx2b
Il existe une équation de régression de la population où la variance de la population expliquée est pour le modèle 1 et pour le modèle 2. La variance incrémentielle expliquée par le modèle 2 dans la population est
Je souhaite obtenir des erreurs standard et des intervalles de confiance pour un estimateur de . Bien que l'exemple concerne respectivement 3 et 2 prédicteurs, mon intérêt de recherche concerne un large éventail de nombres différents de prédicteurs (par exemple, 5 et 30). Ma première pensée a été d'utiliser comme estimateur et de le bootstrap, mais je ne savais pas si cela Être approprié.
Des questions
- Est un estimateur raisonnable de ?
- Comment obtenir un intervalle de confiance pour le changement du carré de la population (c.-à-d. )?
- Le bootstrapping conviendrait-il pour le calcul de l'intervalle de confiance?
Toute référence à des simulations ou à la littérature publiée serait également la bienvenue.
Exemple de code
Si cela aide, j'ai créé un petit ensemble de données de simulation dans R qui pourrait être utilisé pour démontrer une réponse:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Raison de préoccupation avec bootstrap
J'ai exécuté un bootstrap sur certaines données avec environ 300 cas, et 5 prédicteurs dans le modèle simple et 30 prédicteurs dans le modèle complet. Bien que l'estimation de l'échantillon à l'aide de la différence r ajustée soit 0.116
, l'intervalle de confiance boostrapped était pour la plupart plus grand IC95% (0,095 à 0,214) et la moyenne des bootstraps était loin de l'estimation de l'échantillon. La moyenne des échantillons boostés semble plutôt être centrée sur l'estimation de l'échantillon de la différence entre les carrés r dans l'échantillon. Ceci malgré le fait que j'utilisais les r-carrés ajustés de l'échantillon pour estimer la différence.
Fait intéressant, j'ai essayé une autre façon de calculer comme
- calculer l'échantillon de changement de carré
- ajuster le changement de carré de l'échantillon en utilisant la formule standard de carré ajusté
Lorsqu'elle est appliquée aux données de l'échantillon, cela réduit l'estimation de à mais les intervalles de confiance semblent appropriés pour la méthode que j'ai mentionnée en premier, IC95% (.062, .179) avec une moyenne de .118..082
En gros, je crains que le bootstrap suppose que l'échantillon est la population, et donc les estimations que la réduction pour sur-ajustement peut ne pas fonctionner correctement.