Désolé si cette question pose un peu de base.
Je cherche à utiliser la sélection de variables LASSO pour un modèle de régression linéaire multiple dans R. J'ai 15 prédicteurs, dont l'un est catégorique (cela posera-t-il un problème?). Après avoir réglé mes et j'utilise les commandes suivantes:
model = lars(x, y)
coef(model)
Mon problème est quand je l'utilise coef(model)
. Cela renvoie une matrice de 15 lignes, avec un prédicteur supplémentaire ajouté à chaque fois. Cependant, il n'y a aucune suggestion quant au modèle à choisir. Ai-je raté quelque chose? Existe-t-il un moyen de faire en sorte que le package Lars renvoie un seul " meilleur " modèle?
Il y a d'autres publications suggérant d'utiliser à la glmnet
place, mais cela semble plus compliqué. Une tentative est la suivante, en utilisant les mêmes et . Ai-je oublié quelque chose ici ?:
cv = cv.glmnet(x, y)
model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min)
predict(model, type="coefficients")
La dernière commande renvoie une liste de mes variables, la majorité avec un coefficient bien que certaines soient = 0. Est-ce le bon choix du " meilleur " modèle sélectionné par LASSO? Si j'intègre ensuite un modèle linéaire avec toutes mes variables qui avaient des coefficients, not=0
j'obtiens des estimations de coefficients très similaires, mais légèrement différentes. Y a-t-il une raison à cette différence? Serait-il acceptable de réajuster le modèle linéaire avec ces variables choisies par LASSO et de prendre cela comme modèle final? Sinon, je ne vois aucune valeur-p pour la signification. Ai-je manqué quelque chose?
Est-ce que
type.gaussian="covariance"
s'assurer que glmnet
la régression linéaire multiple est utilisée?
La normalisation automatique des variables affecte-t-elle les coefficients? Est-il possible d'inclure des termes d'interaction dans une procédure LASSO?
Je cherche à utiliser cette procédure davantage pour démontrer comment LASSO peut être utilisé que pour tout modèle qui sera réellement utilisé pour toute inférence / prédiction importante si cela change quelque chose.
Merci de prendre du temps pour lire ceci. Tous les commentaires généraux sur LASSO / lars / glmnet seraient également grandement appréciés.