Pénalité de bridge vs régularisation d'Elastic Net


22

Certaines fonctions de pénalité et approximations sont bien étudiées, comme le LASSO ( L1 ) et le Ridge ( L2 ) et comment elles se comparent en régression.

βjγγ=1γ=2

Wenjiang [ 1 ] a comparé la pénalité Bridge quand γ1 au LASSO, mais je n'ai pas trouvé de comparaison avec la régularisation Elastic Net, une combinaison des pénalités LASSO et Ridge, donnée comme λ2β2+λ1β1 .

C'est une question intéressante car le filet élastique et ce pont spécifique ont des formes de contraintes similaires. Comparez ces cercles unitaires en utilisant les différentes métriques ( p est la puissance de la distance de Minkowski ):

L'unité encercle pour différents pouvoirs de la distance de Minkowski

p=1 correspond au LASSO, p=2 à la crête et p=1.4 à un pont possible. Le filet élastique a été généré avec une pondération égale sur les pénalités L1 et L2 . Ces chiffres sont utiles pour identifier la rareté, par exemple (ce qui manque manifestement à Bridge alors qu'Elastic Net le préserve de LASSO).

Alors, comment le pont avec 1<γ<2 compare-t-il à Elastic Net en ce qui concerne la régularisation (autre que la rareté)? J'ai un intérêt particulier pour l'apprentissage supervisé, donc peut-être qu'une discussion sur la sélection / pondération des fonctionnalités est pertinente. L'argumentation géométrique est également la bienvenue.

Peut-être, plus important encore, le filet élastique est-il toujours plus souhaitable dans ce cas?


[1] Fu, WJ (1998). Régressions pénalisées: le pont contre le lasso. Journal of computational and graphical statistics, 7 (3), 397-416.


EDIT: Il y a cette question Comment décider de la sanction à utiliser? toute directive générale ou règle de base du manuel qui mentionne superficiellement LASSO, Ridge, Bridge et Elastic Net, mais il n'y a aucune tentative de les comparer.


4
Seulement lié tangentiellement, mais si la pénalité de norme est l'estimation MAP d'une régression bayésienne avec des a priori indépendants de Laplace sur les coefficients, et que le L 2 est le même pour les a priori gaussiens, je me demande si la pénalité de pont est équivalente à un Subbotin antérieur. .. stats.stackexchange.com/questions/201038/…L1L2
Sycorax dit de réintégrer Monica le

@RichardHardy Il n'est pas nécessaire d'écrire du lasso dans toutes les capitales, voir mon commentaire ici .
amibe dit Réintégrer Monica

2
Gardez à l'esprit que la régression de Bridge permet ce qui donne une régression non convexe. Celles-ci sont particulièrement utiles lorsque vous essayez de sélectionner des groupes de covariables, en particulier à partir de données rares. Ou en général, vous pourriez avoir des groupes de covariables prédéfinis, que vous régulariseriez L 2 de sorte qu'aucun groupe particulier ne soit grand, puis que L 1 régulariserait les coefficients d'un seul groupe pour atteindre la rareté. C'est-à-dire si vous écrivez β = ( a 1 , , a k ) , où a i = ( β i 1 , βγ<1L2L1β=(a1,,ak)alorsvous pourriez faireλ1β γ i +λ2Σiuni ν i . ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.

@AlexR. Je devrais en fait préciser que je me réfère à . Je ne savais pas que γ < 1 s'appelait aussi Bridge. γ1γ<1
Firebug

1
@amoeba, OK, très bien. Normalement, je ne modifie pas si l'utilisation des majuscules est cohérente tout au long du message, mais cette fois-ci, il y avait à la fois "LASSO" et "lasso", alors j'ai simplement choisi "LASSO", qui était la première forme du message. Je pense toujours à l'acronyme, c'est pourquoi j'ai utilisé toutes les capitales; mais comme vous le dites, un simple "lasso" peut être mieux.
Richard Hardy

Réponses:


20

La différence entre la régression du pont et le filet élastique est une question fascinante, étant donné leurs pénalités similaires. Voici une approche possible. Supposons que nous résolvions le problème de régression du pont. On peut alors se demander en quoi la solution nette élastique différerait. L'examen des gradients des deux fonctions de perte peut nous en dire quelque chose.

Régression du pont

Supposons que est une matrice contenant des valeurs de la variable indépendante ( n points x d dimensions), y est un vecteur contenant des valeurs de la variable dépendante et w est le vecteur de poids.Xndyw

La fonction de perte pénalise la norme des poids, de magnitude λ b :qλb

Lb(w)=yXw22+λbwqq

Le gradient de la fonction de perte est:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

désigne la puissance de Hadamard (c'est-à-dire par élément), qui donne un vecteur dont le i ème élément est v cvci . sgn(w)est la fonction de signe (appliquée à chaque élément dew). Le gradient peut être indéfini à zéro pour certaines valeurs deq.vicsgn(w)wq

Filet élastique

La fonction de perte est:

Le(w)=yXw22+λ1w1+λ2w22

Cela pénalise le 1 norme des poids de magnitude et la norme 2 de magnitude λ 2 . Le papier net élastique appelle minimisation de cette fonction de perte le «filet élastique naïf» car il réduit doublement les poids. Ils décrivent une procédure améliorée où les poids sont ensuite redimensionnés pour compenser le double retrait, mais je vais juste analyser la version naïve. C'est une mise en garde à garder à l'esprit.λ12λ2

Le gradient de la fonction de perte est:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Le gradient n'est pas défini à zéro lorsque car la valeur absolue de la pénalité 1 n'y est pas différenciable.λ1>01

Approche

Supposons que nous sélectionnons les poids qui résolvent le problème de régression du pont. Cela signifie que le gradient de régression du pont est nul à ce stade:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Par conséquent:

2XT(yXw)=λbq|w|(q1)sgn(w)

Nous pouvons le remplacer par le gradient net élastique, pour obtenir une expression du gradient net élastique à . Heureusement, cela ne dépend plus directement des données:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

En regardant le gradient net élastique à nous dit: étant donné que la régression du pont a convergé vers les poids w , comment le filet élastique voudrait-il changer ces poids?ww

Il nous donne la direction locale et l'amplitude du changement souhaité, car le gradient pointe dans le sens de la montée la plus abrupte et la fonction de perte diminue lorsque nous nous déplaçons dans la direction opposée au gradient. Le gradient peut ne pas pointer directement vers la solution nette élastique. Mais, comme la fonction de perte nette élastique est convexe, la direction / amplitude locale donne quelques informations sur la façon dont la solution nette élastique différera de la solution de régression de pont.

Cas 1: Contrôle de santé mentale

( λb=0,λ1=0,λ2=1 ). Dans ce cas, la régression de pont est équivalente aux moindres carrés ordinaires (OLS), car la pénalité est nulle. Le filet élastique est une régression de crête équivalente, car seule la norme est pénalisée. Les graphiques suivants montrent différentes solutions de régression de pont et comment le gradient net élastique se comporte pour chacune.2

entrez la description de l'image ici

Graphique de gauche: gradient net élastique par rapport au poids de régression du pont le long de chaque dimension

L'axe des x représente une composante d'un ensemble de poids w sélectionnés par régression en pont. L'axe des y représente la composante correspondante du gradient net élastique, évaluée à . Notez que les poids sont multidimensionnels, mais nous examinons simplement les poids / gradient le long d'une seule dimension.w

Graphique de droite: variations nettes élastiques des poids de régression des ponts (2d)

Chaque point représente un ensemble de poids 2d w sélectionnés par régression en pont. Pour chaque choix de , un vecteur est tracé pointant dans la direction opposée au gradient net élastique, avec une amplitude proportionnelle à celle du gradient. C'est-à-dire que les vecteurs tracés montrent comment le filet élastique veut changer la solution de régression du pont.w

Ces graphiques montrent que, par rapport à la régression de pont (OLS dans ce cas), le filet élastique (régression de crête dans ce cas) veut réduire les poids vers zéro. La quantité de retrait souhaitée augmente avec l'ampleur des poids. Si les poids sont nuls, les solutions sont les mêmes. L'interprétation est que nous voulons nous déplacer dans la direction opposée au gradient pour réduire la fonction de perte. Par exemple, supposons que la régression du pont ait convergé vers une valeur positive pour l'un des poids. Le gradient net élastique est positif à ce stade, donc le filet élastique veut diminuer ce poids. Si vous utilisez la descente de gradient, nous prendrions des étapes proportionnelles en taille au gradient (bien sûr, nous ne pouvons pas techniquement utiliser la descente de gradient pour résoudre le filet élastique en raison de la non-différentiabilité à zéro,

Cas 2: Pont assorti et filet élastique

q=1.4,λb=1,λ1=0.629,λ2=0.355 ). J'ai choisi les paramètres de pénalité de pont pour correspondre à l'exemple de la question. J'ai choisi les paramètres de filet élastique pour donner la pénalité de filet élastique la mieux adaptée. Ici, les moyennes les mieux adaptées, étant donné une distribution particulière des poids, nous trouvons les paramètres de pénalité nette élastique qui minimisent la différence quadratique attendue entre le pont et les pénalités nettes élastiques:

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

[2,2]

Surface de pénalité

q=1.4,λb=100λ1=0.629,λ2=0.355

entrez la description de l'image ici

Comportement dégradé

entrez la description de l'image ici

Nous pouvons voir ce qui suit:

  • wjj .
  • |wj|<0.25 , le filet élastique veut réduire le poids vers zéro.
  • |wj|0.25 , la régression du pont et les solutions de filet élastique sont les mêmes. Mais, le filet élastique veut s'éloigner si le poids diffère même légèrement.
  • 0.25<|wj|<1.31
  • |wj|1.31
  • |wj|>1.31

qλbλ1,λ2 . Les points où les solutions de pont et de filet élastique coïncident changent légèrement, mais le comportement des gradients est par ailleurs similaire.

Cas 3: Pont dépareillé et filet élastique

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

entrez la description de l'image ici

Par rapport à la régression de pont, le filet élastique veut réduire les petits poids vers zéro et augmenter les poids plus importants. Il y a un seul ensemble de poids dans chaque quadrant où la régression du pont et les solutions de filet élastique coïncident, mais le filet élastique veut s'éloigner de ce point si les poids diffèrent même légèrement.

(q=1.2,λb=1,λ1=173,λ2=0.816)1q>1λ1,λ221 peine).

entrez la description de l'image ici

Par rapport à la régression de pont, le filet élastique veut augmenter de petits poids et rétrécir des poids plus grands. Il y a un point dans chaque quadrant où la régression du pont et les solutions de filet élastique coïncident, et le filet élastique veut se déplacer vers ces poids à partir de points voisins.


3
(+1) Excellente réponse, merci pour l'effort! Pourriez-vous aborder une dernière chose: "le filet élastique est-il toujours plus souhaitable?". Pas besoin d'être long;
Firebug

6
La régression de pont et le filet élastique sont équivalents à l'estimation MAP avec différents types de priors sur les poids. De ce point de vue, il semble que le meilleur choix serait le prieur qui correspond le mieux au processus de génération de données, et qu'aucune des deux méthodes ne pourrait être meilleure dans tous les cas.
user20160

2
+6, très belle réponse. Concernant votre commentaire ci-dessus: quels rendements précédents relient la régression? Je sais que le prior gaussien correspond à la crête et à Laplace avant le lasso. Peut-on en quelque sorte combiner ces priors pour obtenir quelque chose qui correspond à un filet élastique?
Amoeba dit Reinstate Monica

2
@amoeba La question ne m'était pas adressée, je sais, mais comme l'a dit GeneralAbrial dans la question, bridge correspond probablement à un Subbotin avant. Le filet élastique, comme prévu, se situe entre les prieurs gaussiens et laplaciens. Voir Li, Q. et Lin, N. (2010). Le filet élastique bayésien. Analyse bayésienne, 5 (1), 151-170. et Zou, H. et Hastie, T. (2005). Régularisation et sélection variable via le filet élastique. Journal de la Royal Statistical Society: série B (méthodologie statistique), 67 (2), 301-320. pour une brève comparaison entre le filet élastique et la régression du pont.
Firebug

2
@amoeba merci pour la générosité et attirer l'attention sur ce post, de même pour l'autre post sur PCA vs réduction de dimensionnalité non linéaire. Il est admirable que vous utilisiez votre représentant pour promouvoir les questions / réponses des autres, et cela me fait plaisir si ce message a au moins une petite valeur pour les gens. D'autres, merci aussi pour les aimables paroles.
user20160
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.