Un algorithme de boosting populaire et une bibliothèque de logiciels (signifie "extreme gradient boosting"). Le boosting combine des modèles faiblement prédictifs en un modèle fortement prédictif.
J'ai une classe de données déséquilibrées et je veux régler les hyperparamètres du tress renforcé à l'aide de xgboost. Des questions Existe-t-il un équivalent de gridsearchcv ou randomsearchcv pour xgboost? Si non, quelle est l'approche recommandée pour ajuster les paramètres de xgboost?
Il existe plusieurs implémentations de la famille de modèles GBDT telles que: GBM XGBoost LightGBM Catboost. Quelles sont les différences mathématiques entre ces différentes implémentations? Catboost semble surpasser les autres implémentations même en utilisant uniquement ses paramètres par défaut en fonction de cette référence , mais il est toujours très …
À titre d'exemple, prendre la fonction objective du modèle XGBoost sur le « e itération:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) où est la fonction de perte, est le ième sortie arbre et est la régularisation. L'une des (nombreuses) étapes clés pour un calcul rapide est l'approximation:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), où et sont les première et …
J'ai un ensemble de données très déséquilibré. J'essaie de suivre les conseils de réglage et d'utilisation, scale_pos_weightmais je ne sais pas comment dois-je le régler. Je peux voir que cela RegLossObj.GetGradientfait: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight donc un gradient d'un échantillon positif aurait plus d'influence. Cependant, selon l' …
La définition du paramètre min_child_weight dans xgboost est donnée comme: somme minimale du poids d'instance (toile de jute) nécessaire chez un enfant. Si l'étape de partition d'arborescence aboutit à un nœud feuille avec la somme du poids d'instance inférieure à min_child_weight, le processus de construction abandonnera le partitionnement. En mode …
J'essaie de comprendre comment fonctionne XGBoost. Je comprends déjà comment les arbres boostés par le gradient fonctionnent sur Python sklearn. Ce qui n'est pas clair pour moi, c'est si XGBoost fonctionne de la même manière, mais plus rapidement, ou s'il existe des différences fondamentales entre celui-ci et l'implémentation de python. …
Je travaille avec de nombreux algorithmes: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear et rbf), KNN, LDA et XGBoost. Tous étaient assez rapides à l'exception de SVM. C'est à ce moment que j'ai appris qu'il avait besoin d'une mise à l'échelle des fonctionnalités pour fonctionner plus rapidement. Ensuite, j'ai commencé …
Il existe de nombreux articles de blog, vidéos YouTube, etc. sur les idées d' ensachage ou de renforcement des arbres. Ma compréhension générale est que le pseudo-code pour chacun est: Ensachage: Prélever N échantillons aléatoires de x% des échantillons et y% des fonctionnalités Ajustez votre modèle (par exemple, arbre de …
Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre. Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi? Si la réponse à ce qui précède est vraie, comment la combattre si l'on …
J'ai essayé de comprendre le renforcement du gradient en lisant divers blogs et sites Web et en essayant de trouver ma réponse en parcourant par exemple le code source XGBoost. Cependant, je n'arrive pas à trouver une explication compréhensible de la façon dont les algorithmes de renforcement de gradient produisent …
Récemment, j'ai examiné l'algorithme XGBoost et j'ai remarqué que cet algorithme peut gérer les données manquantes (sans nécessiter d'imputation) dans la phase de formation. Je me demandais si XGboost peut gérer les données manquantes (sans nécessiter d'imputation) quand il est utilisé pour prévoir de nouvelles observations ou s'il est nécessaire …
Je sais comment implémenter une fonction objectif linéaire et des boosts linéaires dans XGBoost. Ma question concrète est la suivante: lorsque l'algorithme correspond au résiduel (ou au gradient négatif), utilise-t-il une caractéristique à chaque étape (c.-à-d. Modèle univarié) ou toutes les caractéristiques (modèle multivarié)? Toute référence à la documentation sur …
experts! Peut-être, vous savez comment calculer l'intervalle de confiance pour xgboost? La formule classique avec t-distribution ne peut pas aider, car mes données ne sont pas normalement distribuées. Ou n'a pas d'importance? Si vous proposez de la littérature, ce sera très utile, mais les approches en R et Python (dans …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.