J'utilise un modèle de régression avec Lasso et Ridge (pour prédire une variable de résultat discrète allant de 0 à 5). Avant d'exécuter le modèle, j'utilise la SelectKBest
méthode de scikit-learn
pour réduire l'ensemble de fonctionnalités de 250 à 25 . Sans sélection initiale des caractéristiques, Lasso et Ridge cèdent tous deux à des scores de précision inférieurs [ce qui pourrait être dû à la petite taille de l'échantillon, 600]. Notez également que certaines fonctionnalités sont corrélées.
Après avoir exécuté le modèle, j'observe que la précision de prédiction est presque la même avec Lasso et Ridge. Cependant, lorsque je vérifie les 10 premières fonctionnalités après les avoir classées en fonction de la valeur absolue des coefficients, je constate qu'il y a au plus 50% de chevauchement.
Autrement dit, étant donné que l'importance différente des caractéristiques a été attribuée par chaque méthode, je pourrais avoir une interprétation totalement différente basée sur le modèle que je choisis.
Normalement, les fonctionnalités représentent certains aspects du comportement des utilisateurs dans un site Web. Par conséquent, je veux expliquer les résultats en mettant en évidence les fonctionnalités (comportements des utilisateurs) avec une capacité prédictive plus forte par rapport aux fonctionnalités plus faibles (comportements des utilisateurs). Cependant, je ne sais pas comment avancer à ce stade. Comment dois-je aborder l'interprétation du modèle? Par exemple, devrait combiner les deux et mettre en évidence celui qui se chevauchent, ou devrais-je aller avec Lasso car il offre plus d'interprétabilité?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .