Filet Ridge, lasso et élastique


Réponses:


39

Dans le livre Les éléments d'apprentissage statistique , Hastie et al. fournir une comparaison très perspicace et approfondie de ces techniques de retrait. Le livre est disponible en ligne ( pdf ). La comparaison est faite dans la section 3.4.3, page 69.

La principale différence entre Lasso et Ridge est la peine qu'ils utilisent. Ridge utilise le terme de pénalité qui limite la taille du vecteur de coefficient. Lasso utilise la pénalité L 1 qui impose une faible densité parmi les coefficients et rend ainsi le modèle ajusté plus interprétable. Elasticnet est présenté comme un compromis entre ces deux techniques et comporte une pénalité consistant en un mélange de normes L 1 et L 2 .L2L1L1L2


3
C'est un excellent ouvrage de référence.
bdeonovic

4
aussi parce que les auteurs sont les inventeurs de ces techniques!
Bakaburg

1
Merci de nous donner une référence de ce beau livre
Christina

1
Je recommande également fortement la section 18.4, pages 661-668. Fournit plus d'informations sur le lasso par rapport au filet élastique.
Katya Handler

1
Le lien vers le livre est mort au 14 octobre 2016
Ashe

22

En résumé, voici quelques différences importantes entre Lasso, Ridge et Elastic-net:

  1. Lasso fait une sélection clairsemée , alors que Ridge ne le fait pas.
  2. Lorsque vous avez des variables hautement corrélées , la régression Ridge réduit les deux coefficients l'un vers l'autre. Lasso est quelque peu indifférent et choisit généralement l’un sur l’autre. En fonction du contexte, on ne sait pas quelle variable est sélectionnée. Elastic-net est un compromis entre les deux qui tentent de réduire et de faire une sélection clairsemée simultanément.
  3. Les estimateurs de dorsale sont indifférents à la mise à l' échelle multiplicative des données. Autrement dit, si les variables X et Y sont multipliées par des constantes, les coefficients de l'ajustement ne changent pas, pour un paramètre donné . Cependant, pour Lasso, l'ajustement n'est pas indépendant de la mise à l'échelle. En fait, le paramètre λ doit être multiplié par le multiplicateur pour obtenir le même résultat. C'est plus complexe pour le filet élastique.λλ
  4. β

@ balaks pour le deuxième point que vous avez dit, que signifie "on ne sait pas quelle variable est choisie"? Voulez-vous dire que LASSO est indifférent, donc il en choisit un au hasard afin que nous ne sachions pas lequel est le meilleur?
meTchaikovsky le

4

Je vous recommande vivement de consulter An Introduction to Statistics Learning Book (Tibshirani et. Al, 2013).

La raison en est que Elements of statistique learning book est destiné aux personnes ayant une formation avancée en sciences mathématiques. Dans la préface à ISL, les auteurs écrivent:

Une introduction à l'apprentissage statistique est née du besoin perçu d'un traitement plus large et moins technique de ces sujets. [...]

Une introduction à l'apprentissage statistique est appropriée pour les étudiants de premier cycle ou les étudiants de deuxième cycle en statistique ou dans des domaines quantitatifs apparentés ou pour les personnes d'autres disciplines qui souhaitent utiliser des outils d'apprentissage statistique pour analyser leurs données.


1
Pouvez-vous expliquer pourquoi vous avez trouvé cette référence utile?
JM n'est pas un statisticien

1
C'est bien de citer un livre, mais veuillez le marquer comme une citation et non comme votre propre texte. Sinon c'est du plagiat. Je l'ai édité pour vous maintenant.
Amibe dit: réintégrer Monica le

1

Les réponses ci-dessus sont très claires et informatives. Je voudrais ajouter un point mineur du point de vue statistique. Prenons l'exemple de la régression de la crête. C'est une extension de la régression ordinale des moindres carrés permettant de résoudre les problèmes de multicollinéarité lorsqu'il existe de nombreuses caractéristiques corrélées. Si la régression linéaire est

Y=Xb+e

La solution d'équation normale pour la régression linéaire multiple

b=inv(X.T*X)*X.T*Y

La solution d'équation normale pour la régression de crête est

b=inv(X.T*X+k*I)*X.T*Y. 

C'est un estimateur biaisé pour b et nous pouvons toujours trouver un terme de pénalité k qui rend l'erreur quadratique moyenne de la régression de Ridge plus petite que celle de la régression de MCO.

Pour LASSO et Elastic-Net, nous n’avons pas pu trouver une telle solution analytique.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.