Ces méthodes - le lasso et le filet élastique - sont nées des problèmes de sélection et de prédiction des traits. C'est à travers ces deux lentilles que je pense qu'une explication peut être trouvée.
Matthew Gunn explique gentiment dans sa réponse que ces deux objectifs sont distincts et souvent repris par des personnes différentes. Cependant, heureusement pour nous, les méthodes qui nous intéressent peuvent bien fonctionner dans les deux arènes.
Sélection de fonctionnalité
Tout d'abord, parlons de la sélection des fonctionnalités. Nous devons d'abord motiver le filet élastique du point de vue du lasso. C'est-à-dire, pour citer Hastie et Zou , "S'il y a un groupe de variables parmi lesquelles les corrélations par paires sont très élevées, alors le lasso a tendance à sélectionner une seule variable dans le groupe et ne se soucie pas laquelle est sélectionnée." C'est un problème, par exemple, car cela signifie que nous ne sommes pas susceptibles de trouver un élément du véritable support en utilisant le lasso - juste un très corrélé avec lui. (Le document mentionne que cela est prouvé dans le document LARS, que je n'ai pas encore lu.) La difficulté de la récupération du support en présence de corrélation est également soulignée par Wainwright ,0,5 lorsqu'il y a une forte corrélation entre le vrai support et son complément.
Maintenant, la pénalité l2 dans le filet élastique encourage les caractéristiques qui ont des coefficients traités comme ne pouvant être distingués par la perte et la pénalité l1 à avoir un coefficient estimé égal. Nous pouvons voir cela vaguement en remarquant que satisfait. Pour cette raison, le filet élastique fait en sorte que nous sommes moins susceptibles de faire disparaître «accidentellement» une estimation de coefficient qui est dans le vrai support. Autrement dit, le véritable soutien est plus susceptible d'être contenu dans le soutien estimé. C'est bon! Cela signifie qu'il y a plus de fausses découvertes, mais c'est un prix que la plupart des gens sont prêts à payer.| a | = | b |(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2|a|=|b|
Soit dit en passant, il convient de souligner que le fait que les caractéristiques hautement corrélées auront tendance à avoir des estimations de coefficient très similaires permet de détecter des regroupements de caractéristiques au sein du support estimé qui influencent la réponse de manière similaire.
Prédiction
Maintenant, nous passons à la prédiction. Comme le souligne Matthew Gunn, le choix des paramètres de réglage par validation croisée crée un objectif de choisir un modèle avec une erreur de prédiction minimale. Étant donné que tout modèle sélectionné par le lasso peut être sélectionné par le filet élastique (en prenant ), il est logique que le filet élastique soit capable de trouver un modèle qui prédit mieux que le lasso.α=1
Lederer, Yu et Gaynanova montrent, sans aucune hypothèse sur les caractéristiques, que le lasso et le filet élastique peuvent tous deux avoir leur erreur de prédiction l2 limitée par la même quantité. Ce n'est pas nécessairement vrai que leur limite est étroite, mais cela pourrait être intéressant à noter car les inégalités oracle semblent être un moyen standard dans la littérature statistique pour quantifier la performance prédictive des estimateurs - peut-être parce que les distributions sont si compliquées! Il convient également de noter que Lederer (1) (2) a des articles sur les prédictions du lasso en présence de caractéristiques corrélées.
Sommaire
En résumé, les problèmes d'intérêt sont le véritable support se trouvant dans le support et la prévision estimés. Pour la récupération du support, il existe des garanties rigoureusement prouvées (via Wainwright) que le lasso sélectionne les fonctionnalités correctes pour être dans le modèle sous des hypothèses de faible corrélation entre le vrai support et son complément. Cependant, en présence de corrélation, on peut se rabattre sur le filet élastique pour être plus susceptible de sélectionner les caractéristiques du vrai support pour être parmi tout ce qu'il sélectionne. (Notez que nous devons sélectionner soigneusement les paramètres de réglage ici.) Et, pour la prédiction lorsque nous choisissons le paramètre de réglage par validation croisée, il est intuitivement logique que le filet élastique devrait mieux fonctionner que le lasso - en particulier en présence de corrélation .
Mis à part la prédiction et certaines formalités, qu'avons-nous appris? Nous avons appris le véritable soutien.
Intervalles de confiance
Il convient de souligner que beaucoup de choses ont changé au cours des 2 dernières années en ce qui concerne l'inférence valide pour le lasso. En particulier, les travaux de Lee, Sun, Sun et Taylor fournissent une inférence exacte pour les coefficients du lasso conditionnels à la sélection du modèle donné. (Les résultats sur l'inférence au lasso pour les vrais coefficients étaient connus au moment de la publication de OP, et ils sont bien résumés dans le document lié.)