Intro:
J'ai un ensemble de données avec un problème classique "grand p, petit n". Le nombre d'échantillons disponibles n = 150 tandis que le nombre de prédicteurs possibles p = 400. Le résultat est une variable continue.
Je veux trouver les descripteurs les plus "importants", c'est-à-dire ceux qui sont les meilleurs candidats pour expliquer le résultat et aider à construire une théorie.
Après des recherches sur ce sujet, j'ai trouvé que LASSO et Elastic Net sont couramment utilisés pour le grand p, le petit n. Certains de mes prédicteurs sont fortement corrélés et je souhaite conserver leurs regroupements dans l'évaluation de l'importance, j'ai donc opté pour Elastic Net . Je suppose que je peux utiliser des valeurs absolues de coefficients de régression comme mesure d'importance (veuillez me corriger si je me trompe; mon jeu de données est normalisé).
Problème:
Comme mon nombre d'échantillons est petit, comment puis-je obtenir un modèle stable?
Mon approche actuelle consiste à trouver les meilleurs paramètres de réglage (lambda et alpha) dans une recherche de grille sur 90% de l'ensemble de données avec une validation croisée moyenne 10 fois le score MSE. Ensuite, je forme le modèle avec les meilleurs paramètres de réglage sur l'ensemble des 90% de l'ensemble de données. Je suis en mesure d'évaluer mon modèle en utilisant R au carré sur 10% de l'ensemble de données (qui ne représentent que 15 échantillons).
En exécutant à plusieurs reprises cette procédure, j'ai trouvé une grande variance dans les évaluations R au carré. De plus, le nombre de prédicteurs non mis à zéro varie ainsi que leurs coefficients.
Comment obtenir une évaluation plus stable de l'importance des prédicteurs et une évaluation plus stable des performances du modèle final?
Puis-je exécuter à plusieurs reprises ma procédure pour créer un certain nombre de modèles, puis des coefficients de régression moyens? Ou dois-je utiliser le nombre d'occurrences d'un prédicteur dans les modèles comme score d'importance?
Actuellement, j'obtiens environ 40 à 50 prédicteurs non nuls. Dois-je pénaliser davantage le nombre de prédicteurs pour une meilleure stabilité?