Comment interpréter les résultats lorsque la crête et le lasso fonctionnent bien séparément mais produisent des coefficients différents

J'utilise un modèle de régression avec Lasso et Ridge (pour prédire une variable de résultat discrète allant de 0 à 5). Avant d'exécuter le modèle, j'utilise la SelectKBestméthode de scikit-learnpour réduire l'ensemble de fonctionnalités de 250 à 25 . Sans sélection initiale des caractéristiques, Lasso et Ridge cèdent tous deux à des scores de précision inférieurs [ce qui pourrait être dû à la petite taille de l'échantillon, 600]. Notez également que certaines fonctionnalités sont corrélées.

Après avoir exécuté le modèle, j'observe que la précision de prédiction est presque la même avec Lasso et Ridge. Cependant, lorsque je vérifie les 10 premières fonctionnalités après les avoir classées en fonction de la valeur absolue des coefficients, je constate qu'il y a au plus 50% de chevauchement.

Autrement dit, étant donné que l'importance différente des caractéristiques a été attribuée par chaque méthode, je pourrais avoir une interprétation totalement différente basée sur le modèle que je choisis.

Normalement, les fonctionnalités représentent certains aspects du comportement des utilisateurs dans un site Web. Par conséquent, je veux expliquer les résultats en mettant en évidence les fonctionnalités (comportements des utilisateurs) avec une capacité prédictive plus forte par rapport aux fonctionnalités plus faibles (comportements des utilisateurs). Cependant, je ne sais pas comment avancer à ce stade. Comment dois-je aborder l'interprétation du modèle? Par exemple, devrait combiner les deux et mettre en évidence celui qui se chevauchent, ou devrais-je aller avec Lasso car il offre plus d'interprétabilité?

— renakre
source

(+1) La régularisation peut être considérée comme aggravant les estimations individuelles des coefficients tout en améliorant leur performance collective pour prédire de nouvelles réponses. Que cherchez-vous précisément à réaliser avec votre interprétation?

— Scortchi - Réintégrer Monica

@Scortchi merci d'avoir répondu. J'ai ajouté ceci

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— Renakre

+1 AFAIK la relation entre les coefficients de crête et lambda n'a pas à être monotone, alors qu'au lasso c'est le cas. Ainsi, à certains niveaux de retrait, la valeur absolue des coefficients de la crête et du lasso peut varier considérablement. Cela dit, j'apprécierais que quelqu'un puisse en esquisser une preuve ou l'expliquer brièvement mathématiquement

— Łukasz Grad

Assurez-vous de trier les coefficients «bêta». Voir stats.stackexchange.com/a/243439/70282 Vous pouvez les obtenir en vous entraînant sur des variables standardisées ou en les ajustant plus tard comme décrit dans le lien.

— Chris

@ Les coefficients LASSO de ŁukaszGrad n'ont pas besoin d'être des fonctions monotones de

si les prédicteurs sont corrélés; voir la figure 6.6 de l' ISLR pour un exemple.

λ

$\lambda$

— EdM

La régression de crête encourage tous les coefficients à devenir petits. Le lasso encourage de nombreux / la plupart des coefficients [**] à devenir nuls et quelques-uns non nuls. Les deux réduiront la précision de l'ensemble d'entraînement, mais amélioreront la prédiction d'une certaine manière:

la régression de la crête tente d'améliorer la généralisation de l'ensemble de test, en réduisant la sur-adaptation
le lasso réduira le nombre de coefficients non nuls, même si cela pénalise les performances à la fois sur les ensembles d'entraînement et de test

Vous pouvez obtenir différents choix de coefficients si vos données sont fortement corrélées. Ainsi, vous pourriez avoir 5 fonctionnalités qui sont corrélées:

en attribuant des coefficients petits mais non nuls à toutes ces caractéristiques, la régression de crête peut atteindre une faible perte sur l'ensemble d'entraînement, ce qui pourrait se généraliser de manière plausible à l'ensemble de test
le lasso pourrait n'en choisir qu'un seul, qui correspond bien aux quatre autres. et il n'y a aucune raison pour qu'il choisisse la caractéristique avec le coefficient le plus élevé dans la version de régression de crête

[*] pour une définition de «choisir» signifiant: attribue un coefficient non nul, qui est toujours un peu ondulant à la main, car les coefficients de régression de crête auront tendance à être tous non nuls, mais par exemple certains pourraient être comme 1e-8 , et d'autres pourraient être par exemple 0,01

[**] nuance: comme le souligne Richard Hardy, pour certains cas d'utilisation, une valeur de peut être choisie, ce qui entraînera que tous les coefficients LASSO seront non nuls, mais avec un certain rétrécissement $\lambda$

— Hugh Perkins
source

Bonnes suggestions. Une bonne vérification consiste à faire une matrice de corrélation. Les variables sans chevauchement peuvent être fortement corrélées.

— Chris

Bonne réponse! Cependant, je ne suis pas sûr qu'il soit juste de suggérer que la crête tente universellement d'améliorer les performances de test sans dire la même chose pour le lasso. Par exemple, si le vrai modèle est rare (et dans le sous-ensemble de nos prédicteurs), nous pouvons immédiatement nous attendre à ce que le lasso ait de meilleures performances de test que la crête

— user795305

C'est le principe du «pari sur la rareté». Par exemple, voir le premier tracé ici: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305

Les comparaisons des choix de variables (LASSO) et des coefficients de régression entre plusieurs échantillons de bootstrap des données peuvent bien illustrer ces problèmes. Avec des prédicteurs corrélés, ceux choisis par LASSO à partir de différents bootstrap peuvent être très différents tout en offrant des performances prédictives similaires. Idéalement, l'ensemble du processus de création de modèle, y compris la réduction initiale de l'ensemble de fonctionnalités, doit être répété sur plusieurs bootstraps pour documenter la qualité du processus.

— EdM

λ

$\lambda$