Ma situation:
- petit échantillon: 116
- variable de résultat binaire
- longue liste de variables explicatives: 44
- les variables explicatives ne venaient pas du haut de ma tête; leur choix était basé sur la littérature.
- la plupart des cas dans l'échantillon et la plupart des variables ont des valeurs manquantes.
Approche de sélection des fonctionnalités choisie: LASSO
Le package glmnet de R ne me permet pas d'exécuter la routine glmnet, apparemment en raison de l'existence de valeurs manquantes dans mon ensemble de données. Il semble y avoir différentes méthodes pour gérer les données manquantes, donc je voudrais savoir:
- LASSO impose-t-il des restrictions quant à la méthode d'imputation que je peux utiliser?
- Quel serait le meilleur pari pour la méthode d'imputation? Idéalement, j'ai besoin d'une méthode que je pourrais exécuter sur SPSS (de préférence) ou R.
MISE À JOUR1: Il est devenu clair à partir de certaines des réponses ci-dessous que j'ai traité des problèmes plus fondamentaux avant d'envisager des méthodes d'imputation. Je voudrais ajouter ici de nouvelles questions à ce sujet. Sur la réponse suggérant le codage en valeur constante et la création d'une nouvelle variable pour faire face aux valeurs «non applicables» et à l'utilisation du lasso de groupe:
- Diriez-vous que si j'utilise le groupe LASSO, je pourrais utiliser l'approche suggérée pour les prédicteurs continus également pour les prédicteurs catégoriques? Si c'est le cas, je suppose que cela équivaudrait à créer une nouvelle catégorie - je crains que cela n'introduise un biais.
- Est-ce que quelqu'un sait si le paquet glmnet de R prend en charge le groupe LASSO? Sinon, quelqu'un pourrait-il en suggérer un autre qui le fasse en combinaison avec une régression logistique? Plusieurs options mentionnant le groupe LASSO peuvent être trouvées dans le référentiel CRAN, des suggestions des plus appropriées pour mon cas? Peut-être SGL?
Il s'agit d'un suivi d'une question précédente ( comment sélectionner un sous-ensemble de variables de ma longue liste d'origine afin d'effectuer une analyse de régression logistique? ).
OBS: Je ne suis pas statisticien.