J'effectue une analyse dont l'objectif principal est de comprendre les données. L'ensemble de données est suffisamment grand pour la validation croisée (10k), et les prédicteurs incluent des variables continues et factices, et le résultat est continu. L'objectif principal était de voir s'il était judicieux de supprimer certains prédicteurs, afin de rendre le modèle plus facile à interpréter.
Des questions:
Ma question est "quels sont les vars qui expliquent le résultat et qui constituent une partie" assez forte "de cette explication". Mais pour sélectionner le paramètre lambda pour le lasso, vous utilisez la validation croisée, c'est-à-dire la validité prédictive comme critère. Lors de l'inférence, la validité prédictive est-elle un proxy assez bon pour la question générale que je pose?
Supposons que LASSO ne conserve que 3 prédicteurs sur 8. Et maintenant je me demande: "quel effet cela a-t-il sur le résultat". Par exemple, j'ai trouvé une différence de genre. Après le rétrécissement du lasso, le coefficient suggère que les femmes obtiennent 1 point de plus que les hommes. Mais sans le rétrécissement (c'est-à-dire sur l'ensemble de données réel), ils obtiennent 2,5 points de plus.
- Lequel est-ce que je prendrais comme mon "vrai" effet de genre? En partant uniquement de la validité prédictive, ce serait le coefficient rétréci.
- Ou dans un contexte, disons que j'écris un rapport pour des gens qui ne connaissent pas bien les statistiques. Quel coefficient leur rapporterais-je?