J'utilise actuellement XGBoost pour la prédiction des risques, il semble faire du bon travail dans le département de classification binaire mais les sorties de probabilité sont très éloignées, c'est-à-dire que changer la valeur d'une caractéristique dans une observation de très petite quantité peut rendre la probabilité saut de sortie de 0,5 à 0,99.
Je vois à peine les sorties dans la gamme 0,6-0,8. Dans tous les cas, la probabilité est inférieure à 0,99 ou 1.
Je connais les méthodes d'étalonnage post-formation telles que la mise à l'échelle Platt et la correction logistique, mais je me demandais s'il y avait quelque chose que je pouvais modifier dans le processus de formation XGBoost.
J'appelle XGBoost à partir de différentes langues à l'aide de FFI, donc ce serait bien si je pouvais résoudre ce problème sans introduire d'autres bibliothèques d'étalonnage, par exemple, changer la métrique d'évaluation d'AUC pour enregistrer la perte.
XGBoost
est assez robuste contre les valeurs aberrantes, par rapport à d'autres méthodes comme la vanille SVM
.