J'essaie de comprendre comment je pourrais mieux modéliser une variable où, au fil du temps, j'ai obtenu des prédicteurs de plus en plus détaillés. Par exemple, envisagez de modéliser les taux de recouvrement des prêts en défaut. Supposons que nous ayons un ensemble de données avec 20 ans de données, et au cours des 15 premières de ces années, nous savons seulement si le prêt a été garanti ou non, mais rien sur les caractéristiques de cette garantie. Au cours des cinq dernières années, cependant, nous pouvons diviser la garantie en une série de catégories qui devraient être un bon prédicteur du taux de récupération.
Compte tenu de cette configuration, je souhaite adapter un modèle aux données, déterminer des mesures telles que la signification statistique des prédicteurs, puis prévoir avec le modèle.
Dans quel cadre de données manquantes cela s'inscrit-il? Y a-t-il des considérations particulières liées au fait que les variables explicatives plus détaillées ne deviennent disponibles qu'après un moment donné, au lieu d'être dispersées dans l'échantillon historique?