J'essaie de comprendre les principales différences entre GBM et XGBOOST. J'ai essayé de le rechercher sur Google, mais je n'ai trouvé aucune bonne réponse expliquant les différences entre les deux algorithmes et expliquant pourquoi xgboost fonctionne presque toujours mieux que GBM. Qu'est-ce qui rend XGBOOST si rapide?
J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance. Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on? De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires ici Existe-t-il d'autres paramètres pouvant en dire plus sur …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
XGBoost a fait un excellent travail en ce qui concerne les variables dépendantes catégoriques et continues. Mais, comment puis-je sélectionner les paramètres optimisés pour un problème XGBoost? Voici comment j'ai appliqué les paramètres d'un problème Kaggle récent: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # …
J'essaie de comprendre ce qui est le mieux (plus précis, surtout dans les problèmes de classification) J'ai cherché des articles comparant LightGBM et XGBoost mais n'en ai trouvé que deux: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - qui ne concerne que la vitesse mais pas la précision. https://github.com/Microsoft/LightGBM/wiki/Experiments - qui est des auteurs de LightGBM …
Je n'étais pas clair sur quelques concepts: XGBoost convertit les apprenants faibles en apprenants forts. Quel est l'avantage de faire cela? Combiner de nombreux apprenants faibles au lieu d'utiliser simplement un seul arbre? Random Forest utilise divers échantillons d'arbre pour créer un arbre. Quel est l'avantage de cette méthode au …
J'utilise actuellement XGBoost sur un ensemble de données avec 21 fonctionnalités (sélectionnées dans la liste de quelque 150 fonctionnalités), puis je les ai codées à chaud pour obtenir ~ 98 fonctionnalités. Certaines de ces 98 fonctionnalités sont quelque peu redondantes, par exemple: une variable (fonctionnalité) apparaît également comme BAAA etCBABA\frac{B}{A} …
J'ai 3 classes avec cette distribution: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 Et j'utilise xgboostpour la classification. Je sais qu'il y a un paramètre appelé scale_pos_weight. Mais comment est-il géré pour le cas «multiclasse», et comment puis-je le configurer correctement?
J'utilise actuellement XGBoost pour la prédiction des risques, il semble faire du bon travail dans le département de classification binaire mais les sorties de probabilité sont très éloignées, c'est-à-dire que changer la valeur d'une caractéristique dans une observation de très petite quantité peut rendre la probabilité saut de sortie de …
Problème 1: Je suis confus par la description de LightGBM concernant la façon dont l'arbre est développé. Ils déclarent: La plupart des algorithmes d'apprentissage de l'arbre de décision développent l'arbre par niveau (profondeur), comme dans l'image suivante: Question 1 : Quels «la plupart» des algorithmes sont implémentés de cette façon? …
Pour autant que je sache, pour apprendre à classer les modèles, vous devez avoir trois éléments dans l'ensemble de données: étiquette ou pertinence identifiant de groupe ou de requête vecteur de fonction Par exemple, l' ensemble de données Microsoft Learning to Rank utilise ce format (étiquette, identifiant de groupe et …
J'essaie d'exécuter xgboost dans scikit learn. Et j'utilise uniquement des Pandas pour charger des données dans la trame de données. Comment suis-je censé utiliser pandas df avec xgboost. Je suis confus par la routine DMatrix requise pour exécuter xgboost algo.
Si je forme mon modèle en utilisant le code suivant: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) il se termine en environ 1 minute. Si je forme mon …
J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.