Quand utiliser les méthodes de régularisation pour la régression?

83

Dans quelles circonstances faut-il envisager d'utiliser des méthodes de régularisation (régression de crête, de lasso ou de moindre angle) au lieu de MCO?

Au cas où cela aiderait à orienter la discussion, mon intérêt principal est d'améliorer la précision prédictive.

— NPE
source

75

Réponse courte: chaque fois que vous faites face à l'une de ces situations:

grand nombre de variables ou faible ratio de non. observations à non. variables (y compris le cas $n\ll p$ ),
haute colinéarité,
à la recherche d'une solution fragmentée (c.-à-d. la sélection des caractéristiques intégrées lors de l'estimation des paramètres du modèle), ou
comptabilisation du regroupement de variables dans un ensemble de données de grande dimension.

La régression de crête donne généralement de meilleures prévisions que la solution MCO, grâce à un meilleur compromis entre biais et variance. Son principal inconvénient est que tous les prédicteurs sont conservés dans le modèle. Ce n'est donc pas très intéressant si vous recherchez un modèle parcimonieux ou si vous souhaitez appliquer une sorte de sélection de fonctions.

Pour obtenir la clarté, le lasso est plus approprié, mais il ne donnera pas nécessairement de bons résultats en présence d'une colinéarité élevée (il a été observé que si les prédicteurs sont fortement corrélés, la performance de prédiction du lasso est dominée par la régression de crête). Le deuxième problème de la pénalité de N1 est que la solution de lasso n'est pas déterminée de manière unique lorsque le nombre de variables est supérieur au nombre de sujets (ce n'est pas le cas de la régression de type Ridge). Le dernier inconvénient du lasso est qu’il a tendance à ne sélectionner qu’une variable parmi un groupe de prédicteurs présentant des corrélations par paire élevées. Dans ce cas, il existe des solutions alternatives telles que le groupe (c.-à-d., Obtenir un rétrécissement sur un bloc de covariables, c’est-à-dire que certains blocs de coefficients de régression sont exactement nuls) ou fusionné.lasso. Le lasso graphique offre également des fonctionnalités prometteuses pour les GGM (voir le package R glasso ).

$m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

où et. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

Le lasso peut être calculé avec un algorithme basé sur la descente de coordonnées, comme décrit dans le récent article de Friedman et coll., Chemins de régularisation pour modèles linéaires généralisés via Coordinate Descent (JSS, 2010) ou l'algorithme LARS. Dans R, les packages pénalisés , lars ou biglars et glmnet sont des packages utiles; en python, il existe le toolkit scikit.learn , qui contient une documentation détaillée sur les algorithmes utilisés pour appliquer les trois types de schémas de régularisation.

En ce qui concerne les références générales, la page Lasso contient la plupart des éléments nécessaires pour débuter avec la régression de lasso et des détails techniques sur la pénalité L1. Cette question connexe contient des références essentielles. Quand devrais-je utiliser le lasso vs la crête?

— chl
source

1

Que se passe-t-il si j'ai beaucoup d'observations avec relativement peu de variables, mais un très faible rapport signal / bruit? Si faible, en fait, cette suralimentation est un problème très réel. La régularisation serait-elle une bonne chose à essayer pour améliorer la précision prédictive?

— NPE

1

@ aix Cela dépend de ce que vous appelez réellement quelques variables et du type de variables avec lequel vous traitez. Mais je pense qu'une approche de crête doit être préférée dans votre cas. Vous pouvez également consulter Boosting Ridge Regression (Tutz & Binder, 2005). L'estimation de la valeur maximale pénalisée a également été proposée comme méthode intégrée pour éviter les surajustements; voir, par exemple, Estimation du maximum de vraisemblance pénalisé pour prévoir les résultats binaires: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Épidémiol. 2004, 57 (12): 1262-1270.

— chl

20

Une justification théorique de l’utilisation de la régression de crête est que sa solution est la moyenne postérieure étant donné un a priori normal sur les coefficients. En d’autres termes, si vous tenez compte de l’erreur quadratique et que vous croyez en un préalable normal, les estimations de la crête sont optimales.

De même, l'estimation de lasso est le mode postérieur sous un préalable double-exponentiel sur vos coefficients. Ceci est optimal sous une fonction de perte zéro-un.

En pratique, ces techniques améliorent généralement la précision prédictive dans les situations où vous avez beaucoup de variables corrélées et peu de données. Bien que l’estimateur MCO soit le meilleur linéaire non biaisé, il présente une forte variance dans ces situations. Si vous regardez le compromis biais-variance, la précision de la prévision s'améliore, car la faible augmentation du biais est plus que compensée par la forte réduction de la variance.

— ncray
source