Clarification de la signification des paramètres α et Elastic Net
Différentes terminologies et paramètres sont utilisés par différents packages, mais la signification est généralement la même:
Le package R Glmnet utilise la définition suivante
minβ0, β1N∑Ni = 1wjel ( yje, β0+ βTXje) + λ [ ( 1 - α ) | | β| |22/ 2+α | | β| |1]
Sklearn utilise
minw12 N∑Ni = 1| | y- Xw | |22+ α × l1ratio | | w | |1+ 0,5 × α × ( 1 - l1ratio ) × | | w | |22
Il existe également des paramétrisations alternatives utilisant et ..uneb
Pour éviter toute confusion, je vais appeler
- λ le paramètre de force de pénalité
- L1ratioL 1 L 2 le rapport entre la pénalité et , allant de 0 (crête) à 1 (lasso)L1L2
Visualiser l'impact des paramètres
Considérons un ensemble de données simulées où compose d'une courbe sinusoïdale bruyante et est une caractéristique bidimensionnelle composée de et . En raison de la corrélation entre et la fonction de coût est une vallée étroite.yXX1=xX2=x2X1X2
Les graphiques ci-dessous illustrent le chemin de solution de la régression élastique avec deux paramètres de rapport différents , en fonction de λ le paramètre de résistance.L1λ
- Pour les deux simulations: lorsque λ=0 la solution est la solution OLS en bas à droite, avec la fonction de coût en forme de vallée associée.
- À mesure que λ augmente, la régularisation entre en jeu et la solution tend à (0,0)
- La principale différence entre les deux simulations est le paramètre de rapport L1 .
- LHS : pour un petit rapport L1 , la fonction de coût régularisé ressemble beaucoup à la régression de Ridge avec des contours ronds.
- RHS : pour un rapport L1 élevé, la fonction de coût ressemble beaucoup à la régression de Lasso avec les contours de forme de diamant typiques.
- Pour le ratio intermédiaire (non illustré), la fonction de coût est un mélange des deuxL1
Comprendre l'effet des paramètres
L'ElasticNet a été introduit pour contrer certaines des limites du Lasso qui sont:
- S'il y a plus de variables que de points de données , , le lasso sélectionne au plus variables.pnp>nn
- Lasso ne parvient pas à effectuer une sélection groupée, en particulier en présence de variables corrélées. Il aura tendance à sélectionner une variable dans un groupe et à ignorer les autres
En combinant une pénalité et une pénalité quadratique , nous obtenons les avantages des deux:L1L2
- L1 génère un modèle clairsemé
- L2 supprime la limitation du nombre de variables sélectionnées, encourage le regroupement et stabilise lechemin de régularisationL1 .
Vous pouvez le voir visuellement sur le diagramme ci-dessus, les singularités au niveau des sommets encouragent la rareté , tandis que les bords convexes stricts encouragent le regroupement .
Voici une visualisation tirée de Hastie (l'inventeur d'ElasticNet)
Lectures complémentaires
caret
paquetage qui peut faire des cv et des réglages répétés pour alpha et lambda (prend en charge le traitement multicœur!). De mémoire, je pense que laglmnet
documentation déconseille de régler l'alpha comme vous le faites ici. Il recommande de conserver les plis fixes si l'utilisateur ajuste l'alpha en plus de l'ajustement de lambda fourni parcv.glmnet
.