Interprétation géométrique de la régression linéaire pénalisée

Je sais que la régression linéaire peut être considérée comme "la ligne verticalement la plus proche de tous les points" :

entrez la description de l'image ici

Mais il y a une autre façon de le voir, en visualisant l'espace des colonnes, comme "la projection sur l'espace enjambé par les colonnes de la matrice des coefficients" :

entrez la description de l'image ici

Ma question est: dans ces deux interprétations, que se passe-t-il lorsque nous utilisons la régression linéaire pénalisée, comme la régression de crête et LASSO ? Que se passe-t-il avec la ligne dans la première interprétation? Et que se passe-t-il avec la projection dans la deuxième interprétation?

MISE À JOUR: @JohnSmith dans les commentaires a évoqué le fait que la pénalité se produit dans l'espace des coefficients. Y a-t-il aussi une interprétation dans cet espace?

regression intuition geometry

— Lucas Reis
source

Je ne suis pas sûr qu'il soit possible de proposer une telle interprétation. Tout simplement parce que ce que vous avez fourni sont des images dans l'espace d'origine des fonctionnalités et des réponses. Et la régression pénalisée implique l'espace des coefficients, qui est très différent.

— Dmitry Laptev

"la ligne verticale la plus proche de tous les points"? On prend généralement la somme des carrés - voir la belle image sur Wikipedia Coefficient_of_determination . La somme des distances verticales est la norme L1, moins sensible aux valeurs aberrantes mais beaucoup moins courante.

— denis

Réponses:

Désolé pour mes compétences en peinture, je vais essayer de vous donner l'intuition suivante.

Soit la fonction objectif (par exemple, MSE en cas de régression). Imaginons le tracé de contour de cette fonction en rouge (bien sûr, nous le dans l'espace de , ici pour simplifier et ). $f(\beta)$ $\beta$ $\beta_1$ $\beta_2$

Il y a un minimum de cette fonction, au milieu des cercles rouges. Et ce minimum nous donne la solution non pénalisée.

Maintenant, nous ajoutons différents objectifs dont le tracé de contour est donné en bleu. Soit un régularisateur LASSO ou un régularisateur de régression de crête. Pour LASSO , pour la régression de crête ( est une pénalisation paramètre). Les courbes de contour indiquent la zone dans laquelle la fonction a les valeurs fixes. Donc, plus le - plus la croissance rapide et plus le tracé du contour est "étroit". $g(\beta)$ $g(\beta) = \lambda (|\beta_1| + |\beta_2|)$ $g(\beta) = \lambda (\beta_1^2 + \beta_2^2)$ $\lambda$ $\lambda$ $g(x)$

Il faut maintenant trouver le minimum de la somme de ces deux objectifs: . Et ceci est réalisé lorsque deux tracés de contour se rencontrent. $f(\beta) + g(\beta)$

Régression LASSO et Ridge

La pénalité plus importante, les contours bleus "plus étroits" que nous obtenons, puis les parcelles se rencontrent en un point plus proche de zéro. Et vice-versa: plus la pénalité est petite, plus les contours s'élargissent et l'intersection des tracés bleus et rouges se rapproche du centre du cercle rouge (solution non pénalisée).

Et suit maintenant une chose intéressante qui m'explique grandement la différence entre la régression de crête et LASSO: dans le cas de LASSO, deux tracés de contour se rencontreront probablement là où se trouve le coin du régularisateur ( ou ). En cas de régression de crête, ce n'est presque jamais le cas. $\beta_1 = 0$ $\beta_2 = 0$

C'est pourquoi LASSO nous donne une solution clairsemée, rendant certains paramètres exactement égaux à . $0$

J'espère que cela expliquera une certaine intuition sur le fonctionnement de la régression pénalisée dans l'espace des paramètres.

— Dmitry Laptev
source

Je pense que commencer avec une image classique, comme vous l'avez fait, est un bon début. Pour vraiment comprendre cela, je pense qu'il serait utile de décrire comment les contours sont liés au problème. En particulier, nous savons dans les deux cas, que plus nous réduisons notre pénalité, plus nous nous rapprocherons de la solution OLS, et plus elle sera grande, plus nous serons proches d'un modèle d'interception pure. Une question à poser est: comment cela se manifeste-t-il dans votre silhouette?

— cardinal

Soit dit en passant, vos compétences en peinture semblent très bien.

— cardinal

Merci pour votre commentaire! Ici, tout est intuitivement simple: la pénalité plus grande, les contours bleus "plus étroits" que nous obtenons (et ensuite le point où deux tracés se rencontrent se rapprochent de zéro). Et vice-versa: plus la pénalité est petite: plus le centre du cercle rouge se rapprochera des parcelles (OLS).

— Dmitry Laptev

J'ai mis à jour la réponse, introduit une notation plus exacte: pour les tracés bleus, pour le paramètre de pénalisation. Cela explique-t-il mieux votre préoccupation maintenant?

g (x)

$g(x)$

λ

$\lambda$

— Dmitry Laptev

Merci pour l'illustration claire. J'ai lu ailleurs que la somme minimale des objectifs se produit lorsqu'ils sont tangents les uns aux autres. Je comprends que si f (\ beta) '= -g (\ beta)' cela signifierait que la dérivée de la somme est zéro, ce qui est une condition pour un extremum. Est-ce ce que l'on entend ici par "lorsque deux courbes de niveau se rencontrent"?

— odedbd

L'intuition que j'ai est la suivante: dans le cas des moindres carrés, la matrice chapeau est une projection orthogonale donc idempotente. Dans le cas pénalisé, la matrice du chapeau n'est plus idempotente. En fait, en l'appliquant infiniment de fois, les coefficients seront réduits à l'origine. En revanche, les coefficients doivent encore se situer dans la plage des prédicteurs, il s'agit donc toujours d'une projection, bien qu'elle ne soit pas orthogonale. L'ampleur du facteur pénalisant et le type de norme contrôlent la distance et la direction du retrait vers l'origine.

— JohnRos
source

Je ne vois pas pourquoi ce n'est pas idempotent: si je projette le vecteur dans l'espace (même si ce n'est pas une projection orthogonale), et je mets une contrainte dans les coefficients, pourquoi une nouvelle projection de ce vecteur projeté serait-elle différente de la précédente une?

— Lucas Reis

Intuitivement: Supposons que vous réduisez la somme des carrés pénalisés une deuxième fois. La somme des carrés à la deuxième minimisation est inférieure à la somme des carrés de la première minimisation. L'importance relative de la norme des coefficients pénalisés augmentera, c'est-à-dire qu'il y a plus à gagner à réduire davantage les coefficients. La régression de crête est un bon exemple dans lequel vous avez une belle forme fermée pour la matrice de chapeau et vous pouvez directement vérifier si elle est idempotente.

— JohnRos