XGBoost peut gérer les données manquantes dans la phase de prévision


11

Récemment, j'ai examiné l'algorithme XGBoost et j'ai remarqué que cet algorithme peut gérer les données manquantes (sans nécessiter d'imputation) dans la phase de formation. Je me demandais si XGboost peut gérer les données manquantes (sans nécessiter d'imputation) quand il est utilisé pour prévoir de nouvelles observations ou s'il est nécessaire d'imputer les données manquantes.

Merci d'avance.

Réponses:


14

xgboost décide au moment de l'entraînement si les valeurs manquantes vont dans le nœud droit ou gauche. Il choisit lequel minimiser les pertes. S'il n'y a pas de valeurs manquantes au moment de la formation, il envoie par défaut tout nouveau manquant au nœud droit.

S'il y a du signal dans la distribution de vos manquements, cela correspond essentiellement au modèle.

Soyez prudent si vos données de score ont leurs valeurs manquantes distribuées différemment de vos données d'entraînement. La gestion manquante de xgboost est pratique mais ne protège pas contre le masquage.

Source: cette réponse

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.