À la page 223 de l' Introduction à l'apprentissage statistique , les auteurs résument les différences entre la régression de la crête et le lasso. Ils fournissent un exemple (Figure 6.9) du cas où "le lasso tend à surpasser la régression de la crête en termes de biais, de variance et de MSE".
Je comprends pourquoi le lasso peut être souhaitable: il donne des solutions rares car il réduit beaucoup de coefficients à 0, ce qui donne des modèles simples et interprétables. Mais je ne comprends pas comment il peut surpasser les crêtes lorsque seules les prédictions présentent un intérêt (c.-à-d. Comment obtient-on une MSE nettement inférieure dans l'exemple?).
Avec Ridge, si de nombreux prédicteurs n’ont pratiquement aucun effet sur la réponse (quelques prédicteurs ayant un effet important), leurs coefficients ne seront-ils pas simplement réduits à un petit nombre très proche de zéro ... donnant ainsi un résultat très similaire à celui de lasso ? Alors, pourquoi le modèle final aurait-il une performance inférieure à celle du lasso?