Questions marquées «boosting»

Une famille d'algorithmes combinant des modèles faiblement prédictifs en un modèle fortement prédictif. L'approche la plus courante est appelée augmentation du gradient, et les modèles faibles les plus couramment utilisés sont les arbres de classification / régression.






2
Augmentation de gradient pour la régression linéaire - pourquoi cela ne fonctionne-t-il pas?
Lors de l'apprentissage de Gradient Boosting, je n'ai jamais entendu parler de contraintes concernant les propriétés d'un "classificateur faible" que la méthode utilise pour construire et modéliser un modèle. Cependant, je ne pouvais pas imaginer une application de Go utilisant une régression linéaire, et en fait, après avoir effectué certains …


1
Différences mathématiques entre GBM, XGBoost, LightGBM, CatBoost?
Il existe plusieurs implémentations de la famille de modèles GBDT telles que: GBM XGBoost LightGBM Catboost. Quelles sont les différences mathématiques entre ces différentes implémentations? Catboost semble surpasser les autres implémentations même en utilisant uniquement ses paramètres par défaut en fonction de cette référence , mais il est toujours très …
33 boosting  xgboost 



5
Que signifie la profondeur d'interaction dans GBM?
J'avais une question sur le paramètre de profondeur d'interaction en gbm dans R. Cela peut être une question noob, pour laquelle je m'excuse, mais comment le paramètre, qui je crois dénote le nombre de nœuds terminaux dans un arbre, indique fondamentalement X-way interaction entre les prédicteurs? J'essaie juste de comprendre …

1
Approximation de la fonction de perte XGBoost avec expansion de Taylor
À titre d'exemple, prendre la fonction objective du modèle XGBoost sur le « e itération:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) où est la fonction de perte, est le ième sortie arbre et est la régularisation. L'une des (nombreuses) étapes clés pour un calcul rapide est l'approximation:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), où et sont les première et …

3
En stimulant, pourquoi les apprenants sont-ils «faibles»?
Voir aussi une question similaire sur stats.SE . En stimulant les algorithmes tels que AdaBoost et LPBoost, il est connu que les apprenants "faibles" à combiner n'ont qu'à mieux performer que la chance d'être utiles, de Wikipedia: Les classificateurs qu'il utilise peuvent être faibles (c'est-à-dire afficher un taux d'erreur substantiel), …


2
Sur la «force» des apprenants faibles
J'ai plusieurs questions étroitement liées concernant les apprenants faibles dans l'apprentissage d'ensemble (par exemple, le renforcement). Cela peut sembler stupide, mais quels sont les avantages d'utiliser des apprenants faibles plutôt que des apprenants forts? (par exemple, pourquoi ne pas booster avec des méthodes d'apprentissage "fortes"?) Existe-t-il une sorte de force …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.