J'essaie de faire une sélection de modèle sur certains prédicteurs candidats en utilisant LASSO avec un résultat continu. Le but est de sélectionner le modèle optimal avec les meilleures performances de prédiction, ce qui peut généralement être fait par validation croisée K-fold après avoir obtenu un chemin de solution des paramètres de réglage de LASSO. Le problème ici est que les données proviennent d'un plan d'enquête complexe en plusieurs étapes (NHANES), avec échantillonnage en grappes et stratification. La partie estimation n'est pas difficile car glmnet
dans R peut prendre des poids d'échantillonnage. Mais la partie de la validation croisée est moins claire pour moi car les observations ne sont plus désormais iid, et comment la procédure peut-elle rendre compte des poids d'échantillonnage représentant une population finie?
Mes questions sont donc:
1) Comment effectuer une validation croisée K-fold avec des données d'enquête complexes pour sélectionner le paramètre de réglage optimal? Plus précisément, comment partitionner correctement les exemples de données en ensembles de formation et de validation? Et comment définir l'estimation de l'erreur de prédiction?
2) Existe-t-il une autre manière de sélectionner le paramètre de réglage optimal?