Des inconvénients du filet élastique par rapport au lasso?


8

Quels sont les inconvénients de l'utilisation d'un filet élastique par rapport au lasso. Je sais que le filet élastique est capable de sélectionner des groupes de variables lorsqu'ils sont fortement corrélés.

  1. Il n'a pas le problème de sélectionner plus de nprédicteurs lorsque . Alors que le lasso sature lorsque .pnpn

  2. Lorsqu'il existe des prédicteurs hautement corrélés, le lasso a tendance à choisir un seul prédicteur dans le groupe.

  3. Lorsque et les prédicteurs sont corrélés, les performances de prédiction du lasso sont inférieures à celles de la crête.np

Tous ces inconvénients du lasso sont surmontés par le filet élasique.

Ce que je ne comprends pas, c'est quand utiliser le lasso? Y a-t-il une raison de l'utiliser lorsque le filet élastique fonctionne mieux que le lasso? Quels sont les inconvénients de l'utilisation d'un filet élastique dans certains cas? Dans quels cas le lasso serait-il un meilleur choix?

Réponses:


8

Un inconvénient est le coût de calcul. Vous devez contre-valider le poids relatif de la pénalité L1 contre L2,α, et cela augmente le coût de calcul du nombre de valeurs dans le α la grille.

Un autre inconvénient (mais en même temps un avantage) est la flexibilité de l'estimateur. Une plus grande flexibilité s'accompagne d'une probabilité accrue de sur-ajustement. Il se peut que l'optimumα pour la population et pour la taille d'échantillon donnée est 0, transformant le filet élastique en lasso, mais il se trouve que vous choisissez une valeur différente en raison du hasard (car cette valeur offre de meilleures performances lors de la validation croisée dans l'échantillon particulier).


1
Commentaire mineur concernant votre deuxième point: le lasso et le filet élastique sont des estimateurs pour le même modèle . En tant que tel, il n'y a aucune différence dans la flexibilité du modèle.
hejseb

2
@hejseb: Avec LASSO, il existe un seul paramètre optimisé lors de la validation croisée: λ. En filet élastique, vous pouvez optimiser sur les deuxα et λ, ce qui signifie plus de possibilités de sur-ajustement pendant le processus de sélection de validation croisée. D'un autre côté, il suffit d'utiliser les valeurs par défaut deα ont tendance à très bien fonctionner, donc souvent seulement λest optimisé. Je suis donc en désaccord avec votre déclaration, car je considèreα et λune partie du modèle (même si je comprends l'ambiguïté).
Cliff AB

3
@hejseb, excellent point! Maintenant corrigé. Cliff AB, je pense que la définition du modèle n'a pas besoin d'inclure les paramètres de réglage de l'estimateur (lasso, filet élastique, ...) - quiα et λsont - donc pour moi le commentaire de hejseb a beaucoup de sens. Je pense dans le sens de définir un modèle pour la population (un modèle linéaire dans ce cas) et d'estimer ses paramètres (qui incluentβs mais pas α ou λ) par un estimateur.
Richard Hardy
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.