J'ai une question sur la sélection des modèles et les performances des modèles en régression logistique. J'ai trois modèles basés sur trois hypothèses différentes. Les deux premiers modèles (nommons-les z et x) n'ont qu'une seule variable explicative dans chaque modèle, et le troisième (nommons-le w) est plus compliqué. J'utilise AIC pour la sélection des variables pour le modèle w, puis AIC pour comparer lequel des trois modèles qui explique le mieux la variable dépendante. J'ai trouvé que le modèle w a le plus faible AIC et je veux maintenant faire des statistiques de performance sur ce modèle pour avoir une idée du pouvoir prédictif du modèle. Puisque tout ce que je sais, c'est que ce modèle est meilleur que les deux autres mais pas à quel point il est bon.
Depuis que j'ai utilisé toutes les données pour apprendre le modèle (pour pouvoir comparer les trois modèles), comment dois-je procéder avec les performances du modèle? D'après ce que j'ai rassemblé, je ne peux pas simplement faire une validation croisée k-fold sur le modèle final que j'ai obtenu de la sélection de modèle en utilisant AIC, mais je dois commencer par le début avec toutes les variables explicatives incluses, est-ce correct? Je pense que c'est le modèle final que j'ai choisi avec AIC que je veux savoir comment il fonctionne, mais je me rends compte que je me suis entraîné sur toutes les données afin que le modèle soit biaisé. Donc, si je commence par le début avec toutes les variables explicatives dans tous les plis, j'obtiendrai différents modèles finaux pour certains plis, puis-je simplement choisir le modèle du pli qui a donné le meilleur pouvoir prédictif et l'appliquer à l'ensemble de données complet pour comparer AIC avec les deux autres modèles (z et x)? Ou comment ça marche?
La deuxième partie de ma question est une question de base sur la sur-paramétrisation. J'ai 156 points de données, 52 est 1, le reste est 0. J'ai 14 variables explicatives à choisir pour le modèle w, je me rends compte que je ne peux pas tout inclure en raison de la sur-paramétrage, j'ai lu que vous ne devriez utiliser que 10% du groupe de la variable dépendante avec le moins d'observations qui serait seulement 5 pour moi. J'essaie de répondre à une question en écologie, est-ce correct de sélectionner les variables de départ qui, je pense, expliquent le mieux la dépendance simplement en fonction de l'écologie? Ou comment choisir les variables explicatives de départ? Ne semble pas juste d'exclure complètement certaines variables.
J'ai donc vraiment trois questions:
- Serait-il possible de tester les performances sur un modèle formé sur l'ensemble de données complet avec validation croisée?
- Sinon, comment choisir le modèle final lors de la validation croisée?
- Comment choisir les variables de départ pour que je veuille sur-paramétrer?
Désolé pour mes questions en désordre et mon ignorance. Je sais que des questions similaires ont été posées, mais je me sens toujours un peu confus. Appréciez toutes vos pensées et suggestions.