Contexte:
dans xgboost, l' itération tente d'ajuster un arbre sur tous les exemples, ce qui minimise l'objectif suivant:f t n
où sont des premier ordre et de second ordre sur notre meilleure estimation précédente (à partir de l'itération ):y t - 1
et est notre fonction de perte.
La question (enfin):
Lors de la construction de et de l'examen d'une caractéristique spécifique dans une division spécifique, ils utilisent l'heuristique suivante pour évaluer uniquement certains candidats de division: ils trient tous les exemples par leur , passent sur la liste triée et additionnent leur deuxième dérivée . Ils considèrent un candidat divisé uniquement lorsque la somme change plus de . Pourquoi donc??? k x k h i ϵ
L'explication qu'ils me donnent m'échappe:
Ils prétendent que nous pouvons réécrire l'équation précédente comme suit:
et je ne parviens pas à suivre l'algèbre - pouvez-vous montrer pourquoi est-elle égale?
Et puis ils affirment que "c'est exactement la perte au carré pondérée avec les étiquettes et les poids " - une déclaration avec laquelle je suis d'accord, mais je ne comprends pas comment cela se rapporte à l'algorithme de fractionnement candidat qu'ils utilisent ...h i
Merci et désolé si c'est trop long pour ce forum.