Je travaille sur la validation croisée de la prédiction de mes données avec 200 sujets et 1000 variables. Je suis intéressé par la régression des crêtes car le nombre de variables (que je veux utiliser) est supérieur au nombre d'échantillons. Je veux donc utiliser des estimateurs de retrait. Voici des exemples de données:
#random population of 200 subjects with 1000 variables
M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200
#random yvars
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))
myd <- data.frame(y=y, M)
myd[1:10,1:10]
y X1 X2 X3 X4 X5 X6 X7 X8 X9
1 -7.443403 -1 -1 1 1 -1 1 1 1 1
2 -63.731438 -1 1 1 -1 1 1 -1 1 -1
3 -48.705165 -1 1 -1 -1 1 1 -1 -1 1
4 15.883502 1 -1 -1 -1 1 -1 1 1 1
5 19.087484 -1 1 1 -1 -1 1 1 1 1
6 44.066119 1 1 -1 -1 1 1 1 1 1
7 -26.871182 1 -1 -1 -1 -1 1 -1 1 -1
8 -63.120595 -1 -1 1 1 -1 1 -1 1 1
9 48.330940 -1 -1 -1 -1 -1 -1 -1 -1 1
10 -18.433047 1 -1 -1 1 -1 -1 -1 -1 1
Je voudrais faire ce qui suit pour la validation croisée -
(1) diviser les données en deux - utilisez la première moitié comme formation et la seconde moitié comme test
(2) Validation croisée K-fold (disons 10 fois ou une suggestion sur tout autre pli approprié pour mon cas est la bienvenue)
Je peux simplement échantillonner les données en deux (gagner et tester) et les utiliser:
# using holdout (50% of the data) cross validation
training.id <- sample(1:nrow(myd), round(nrow(myd)/2,0), replace = FALSE)
test.id <- setdiff(1:nrow(myd), training.id)
myd_train <- myd[training.id,]
myd_test <- myd[test.id,]
J'utilise lm.ridge
depuis le MASS
package R.
library(MASS)
out.ridge=lm.ridge(y~., data=myd_train, lambda=seq(0, 100,0.001))
plot(out.ridge)
select(out.ridge)
lam=0.001
abline(v=lam)
out.ridge1 =lm.ridge(y~., data=myd_train, lambda=lam)
hist(out.ridge1$coef)
out.ridge1$ym
hist(out.ridge1$xm)
J'ai deux questions -
(1) Comment puis-je prédire l'ensemble de test et calculer la précision (en tant que corrélation entre le prévu et le réel)?
(2) Comment puis-je effectuer la validation K-fold? dites 10 fois?
rms
paquet ols
, calibrate
et validate
fonction avec Pénalisation quadratique (régression de crête).