Comment interpréter le tracé cv.glmnet ()?


8

J'ai effectué un lasso, puis laissé une validation croisée

cv<-cv.glmnet(df, df$Price, nfolds = 1500) 

Lorsque je trace un cv, j'obtiens ce qui suit: entrez la description de l'image ici

J'ai aussi remarqué que j'obtenais 2 lambdas différents: lambda.minetlambda.1se

  • Quelle est la différence entre ces lambdas?
  • Que puis-je comprendre de l'intrigue ci-dessus en général (à quoi servent ces intervalles de confiance, quelles sont les deux lignes pointillées, etc.)?

Si je change pour nfolds=10effectuer une validation 10 fois, j'obtiens lambda.1sedes coefficients différents et différents pour cette lambda. Sur la base de quels critères puis-je choisir le meilleur pour moi?


2
Avez-vous essayé de regarder ici: web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
ilanman

@ilanman C'est super, merci! Mais quelle lambda dois-je préférer? Mon intuition dirait lambda.min mais je vois que lambda.1se est généralement suggéré ..
Jasmine

Réponses:


16

Il ne s'agit pas vraiment de statistiques, il suffit de lire la documentation.

  • Les deux valeurs différentes de reflètent deux choix communs pour . Le est celui qui minimise la perte de CV hors échantillon. Le est celui qui est la plus grande valeur dans 1 erreur standard de . Une ligne de raisonnement suggère d'utiliser car il se contre le sur-ajustement en sélectionnant une valeur supérieure à la valeur min. Le meilleur choix dépend du contexte.λλλminλ1seλλminλ1seλ
  • Les intervalles de confiance représentent des estimations d'erreur pour la métrique de perte (points rouges). Ils sont calculés à l'aide de CV. Les lignes verticales indiquent les emplacements de et . Les nombres en haut sont le nombre d'estimations de coefficients non nuls.λminλ1se
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.