Choix de la plage et de la densité de grille pour le paramètre de régularisation dans LASSO


11

Je suis en train d' étudier LASSO (moins un retrait absolu et opérateur sélection) à l'intervalle. Je vois que la valeur optimale pour le paramètre de régularisation peut être choisie par validation croisée. Je vois aussi dans la régression de crête et de nombreuses méthodes qui appliquent la régularisation, nous pouvons utiliser CV afin de trouver le paramètre de régularisation optimal (en disant pénalité). Maintenant, ma question concerne les valeurs initiales des bornes supérieure et inférieure du paramètre et comment déterminer la longueur de la séquence.

Pour être précis, supposons que nous ayons un problème LASSO et nous voulons trouver la valeur optimale pour la pénalité, . Alors, comment pouvons-nous choisir une limite inférieure et supérieure pour ? et combien de divisions entre ces deux valeurs ?

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?

Question connexe ici .
Richard Hardy

Réponses:


12

Cette méthodologie est décrite dans le document de glmnet Regularization Paths for Generalized Linear Models via Coordinate Descent . Bien que la méthodologie utilisée ici concerne le cas général de régularisation et , elle devrait également s'appliquer au LASSO (uniquement ).L 2 L 1L1L2L1

La solution pour le maximum est donnée dans la section 2.5. λ

Lorsque , nous voyons à partir de (5) que restera nul si . D'où ˜ β j1β~=0β~j1N|xj,y|<λαNαλmax=maxl|xl,y|

Autrement dit, nous observons que la règle de mise à jour pour la version bêta force toutes les estimations de paramètres à zéro pour comme déterminé ci-dessus.λ>λmax

La détermination de et du nombre de points de grille semble moins fondée sur des principes. Dans glmnet, ils définissent , puis choisissent une grille de points également espacés sur l'échelle logarithmique.λminλmin=0.001λmax100

Cela fonctionne bien dans la pratique, dans mon utilisation extensive de glmnet, je n'ai jamais trouvé cette grille trop grossière.

Dans le LASSO ( ), seuls les cas fonctionnent mieux, car la méthode LARS fournit un calcul précis du moment où les différents prédicteurs entrent dans le modèle. Un vrai LARS ne fait pas de recherche de grille sur , produisant à la place une expression exacte pour les chemins de solution pour les coefficients. Voici un aperçu détaillé du calcul exact des chemins de coefficient dans les deux cas de prédicteur.L1λ

Le cas des modèles non linéaires (ie logistique, poisson) est plus difficile. À un niveau élevé, une approximation quadratique de la fonction de perte est d'abord obtenue aux paramètres initiaux , puis le calcul ci-dessus est utilisé pour déterminer . Un calcul précis des chemins des paramètres n'est pas possible dans ces cas, même lorsque seule la régularisation est fournie, donc une recherche dans la grille est la seule option.β=0λmaxL1

Les poids d'échantillon compliquent également la situation, les produits intérieurs doivent être remplacés aux endroits appropriés par des produits intérieurs pondérés.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.