Pourquoi utiliser la régularisation L1 sur L2?


10

En effectuant un modèle de régression linéaire à l'aide d'une fonction de perte, pourquoi devrais-je utiliser au lieu de la régularisation ?L1L2

Est-il préférable de prévenir le sur-ajustement? Est-ce déterministe (donc toujours une solution unique)? Est-il meilleur dans la sélection des fonctionnalités (parce que la production de modèles clairsemés)? Disperse-t-il les poids entre les caractéristiques?


2
L2 ne fait pas de sélection de variable, donc L1 est définitivement meilleur dans ce domaine.
Michael M

Réponses:


5

Fondamentalement, nous ajoutons un terme de régularisation afin d'empêcher les coefficients de s'adapter si parfaitement à la sur-adaptation.

La différence entre L1 et L2 est L1 est la somme des poids et L2 est juste la somme du carré des poids.

L1 ne peut pas être utilisé dans les approches basées sur un gradient car il n'est pas différentiable contrairement à L2

L1 permet d'effectuer la sélection d'entités dans des espaces d'entités clairsemés. La sélection des fonctionnalités consiste à savoir quelles entités sont utiles et lesquelles sont redondantes.

La différence entre leurs propriétés peut être résumée comme suit:

l1 vs l2


1
Il n'est pas vrai que "L1 ne peut pas être utilisé dans des approches basées sur un gradient". Keras le prend en charge , par exemple. Oui, la dérivée est toujours constante, il est donc plus difficile pour la descente de gradient de trouver le minimum. Mais la régularisation est un petit terme dans la fonction de perte, donc ce n'est pas très important dans le grand schéma des choses.
Ricardo Cruz

-1

L2 a un avantage très important pour L1, c'est l'invariance à la rotation et à l'échelle.

Ceci est particulièrement important dans l'application géographique / physique.

Supposons que votre technicien ait accidentellement installé votre capteur dans un ange à 45 degrés, L1 serait affecté, tandis que L2 (distance euclidienne) resterait le même.


4
Ce n'est pas du tout une réponse à la question.
kbrose

Pourriez-vous expliquer l'invariance, s'il vous plaît?
aneesh joshi

@Chati, la question concerne la régularisation. Vous le confondez avec d'autres utilisations de la norme 1 et de la norme 2 dans les fonctions de perte.
Ricardo Cruz
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.