Supposons que l'on nous donne un ensemble de données de la forme et . On nous donne la tâche de prédire sur la base des valeurs de . Nous estimons deux régressions où: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Nous estimons également une régression qui prédit des valeurs de basées sur des valeurs de , c'est-à-dire: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Supposons maintenant que l'on nous donne des valeurs de , alors nous aurions deux méthodes différentes pour prédire :y
Laquelle serait la meilleure en général?
Je suppose que la première équation serait meilleure car elle utilise des informations provenant des deux formes de points de données alors que la deuxième équation utilise uniquement des informations provenant de points de données qui ont valeurs de prédicteur. Ma formation en statistique est limitée et j'aimerais donc demander conseil à un professionnel.
De plus, en général, quelle est la meilleure approche à l'égard des données qui contiennent des informations incomplètes? En d'autres termes, comment extraire le plus d'informations des données qui n'ont pas de valeurs dans toutes les dimensions?