J'ai parcouru divers fils ici, mais je ne pense pas que ma question exacte soit répondue.
J'ai un ensemble de données d'environ 50 000 étudiants et leur temps d'abandon. Je vais effectuer une régression des risques proportionnels avec un grand nombre de covariables potentielles. Je vais également faire une régression logistique sur le décrochage / séjour. L'objectif principal sera la prédiction pour les nouvelles cohortes d'étudiants, mais nous n'avons aucune raison de croire qu'elles varieront beaucoup par rapport à la cohorte de l'année dernière.
Habituellement, je n'ai pas un tel luxe de données et je fais l'ajustement de modèle avec une sorte de pénalisation, mais cette fois, j'ai pensé à diviser les ensembles de données d'entraînement et de test, puis à faire la sélection des variables sur l'ensemble d'entraînement; puis en utilisant l'ensemble de données de test pour estimer les paramètres et la capacité prédictive.
Est-ce une bonne stratégie? Sinon, quoi de mieux?
Les citations sont les bienvenues mais pas nécessaires.