Comment les méthodes de régularisation des arêtes, LASSO et des filets élastiques se comparent-elles? Quels sont leurs avantages et inconvénients respectifs? Tout bon document technique ou note de cours serait également apprécié.
Comment les méthodes de régularisation des arêtes, LASSO et des filets élastiques se comparent-elles? Quels sont leurs avantages et inconvénients respectifs? Tout bon document technique ou note de cours serait également apprécié.
Réponses:
Dans le livre Les éléments d'apprentissage statistique , Hastie et al. fournir une comparaison très perspicace et approfondie de ces techniques de retrait. Le livre est disponible en ligne ( pdf ). La comparaison est faite dans la section 3.4.3, page 69.
La principale différence entre Lasso et Ridge est la peine qu'ils utilisent. Ridge utilise le terme de pénalité qui limite la taille du vecteur de coefficient. Lasso utilise la pénalité L 1 qui impose une faible densité parmi les coefficients et rend ainsi le modèle ajusté plus interprétable. Elasticnet est présenté comme un compromis entre ces deux techniques et comporte une pénalité consistant en un mélange de normes L 1 et L 2 .
En résumé, voici quelques différences importantes entre Lasso, Ridge et Elastic-net:
Je vous recommande vivement de consulter An Introduction to Statistics Learning Book (Tibshirani et. Al, 2013).
La raison en est que Elements of statistique learning book est destiné aux personnes ayant une formation avancée en sciences mathématiques. Dans la préface à ISL, les auteurs écrivent:
Une introduction à l'apprentissage statistique est née du besoin perçu d'un traitement plus large et moins technique de ces sujets. [...]
Une introduction à l'apprentissage statistique est appropriée pour les étudiants de premier cycle ou les étudiants de deuxième cycle en statistique ou dans des domaines quantitatifs apparentés ou pour les personnes d'autres disciplines qui souhaitent utiliser des outils d'apprentissage statistique pour analyser leurs données.
Les réponses ci-dessus sont très claires et informatives. Je voudrais ajouter un point mineur du point de vue statistique. Prenons l'exemple de la régression de la crête. C'est une extension de la régression ordinale des moindres carrés permettant de résoudre les problèmes de multicollinéarité lorsqu'il existe de nombreuses caractéristiques corrélées. Si la régression linéaire est
Y=Xb+e
La solution d'équation normale pour la régression linéaire multiple
b=inv(X.T*X)*X.T*Y
La solution d'équation normale pour la régression de crête est
b=inv(X.T*X+k*I)*X.T*Y.
C'est un estimateur biaisé pour b et nous pouvons toujours trouver un terme de pénalité k qui rend l'erreur quadratique moyenne de la régression de Ridge plus petite que celle de la régression de MCO.
Pour LASSO et Elastic-Net, nous n’avons pas pu trouver une telle solution analytique.