J'aimerais trouver des prédicteurs pour une variable dépendante continue sur un ensemble de 30 variables indépendantes. J'utilise la régression de Lasso telle qu'implémentée dans le paquet glmnet de R. Voici du code factice:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Ma question est de savoir comment interpréter le résultat:
Est-il exact de dire que dans la sortie finale, tous les prédicteurs présentant un coefficient différent de zéro sont liés à la variable dépendante?
Serait-ce un rapport suffisant dans le contexte d'une publication de journal? Ou est-il censé fournir des statistiques de test pour la signification des coefficients? (Le contexte est la génétique humaine)
Est-il raisonnable de calculer des valeurs p ou d'autres statistiques de test pour revendiquer une signification? Comment serait-ce possible? Une procédure est-elle implémentée dans R?
Un simple graphe de régression (points de données avec un ajustement linéaire) pour chaque prédicteur serait-il un moyen approprié de visualiser ces données?
Peut-être que quelqu'un peut fournir des exemples simples d'articles publiés montrant l'utilisation de Lasso dans le contexte de données réelles et comment rendre compte de cela dans un journal?
cv
pour l'étape de prédiction?