Supposons que vous ayez deux variables prédictives hautement corrélées , et supposez que les deux sont centrées et mises à l'échelle (pour signifier zéro, la variance un). Alors la pénalité de crête sur le vecteur de paramètre est β 2 1 + β 2 2 tandis que le terme de pénalité au lasso est ∣ β 1 ∣ + ∣ β 2 ∣ . Maintenant, puisque le modèle est supposé très colinéaire, de sorte que x et z peuvent plus ou moins se substituer pour prédire Y , autant de combinaisons linéaires de x , z où nous substituons simplement en partiex , zβ21+β22∣ β1∣ + ∣ β2∣xzYx,z pour z , fonctionnera de la même manière que les prédicteurs, par exemple 0,2 x + 0,8 x , 0,3 x + 0,7 z ou 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zsera tout aussi bon que les prédicteurs. Maintenant, regardez ces trois exemples, la pénalité de lasso dans les trois cas est égale, elle est de 1, tandis que la pénalité de crête diffère, elle est respectivement de 0,68, 0,58, 0,5, de sorte que la pénalité de crête préférera une pondération égale des variables colinéaires tandis que la pénalité de lasso ne pourra pas choisir. C'est l'une des raisons pour lesquelles la crête (ou plus généralement, le filet élastique, qui est une combinaison linéaire de lasso et de pénalités de crête) fonctionnera mieux avec les prédicteurs colinéaires: lorsque les données donnent peu de raisons de choisir entre différentes combinaisons linéaires de prédicteurs colinéaires, le lasso ne fera que «errer» tandis que la crête a tendance à choisir une pondération égale. Ce dernier pourrait être une meilleure estimation pour une utilisation avec les données futures! Et, s'il en est ainsi avec les données actuelles, cela pourrait apparaître dans la validation croisée comme de meilleurs résultats avec la crête.
Nous pouvons voir cela d'une manière bayésienne: Ridge et lasso impliquent des informations préalables différentes, et les informations antérieures impliquées par ridge ont tendance à être plus raisonnables dans de telles situations. (Cette explication que j'ai apprise ici, plus ou moins, dans le livre: "Statistical Learning with Sparsity The Lasso and Generalizations" de Trevor Hastie, Robert Tibshirani et Martin Wainwright, mais à ce moment je n'ai pas pu trouver de citation directe).