J'ai un ensemble de données avec N ~ 5000 et environ 1/2 manquant sur au moins une variable importante. La principale méthode d'analyse sera les risques proportionnels de Cox.
Je prévois d'utiliser l'imputation multiple. Je vais également me séparer en train et en test.
Dois-je diviser les données puis imputer séparément, ou imputer puis diviser?
Si cela importe, je vais utiliser PROC MI
dans SAS
.