Science des données xgboost

3

Besoin d'aide pour comprendre la proposition approximative de points de partage de xgboost

Contexte: dans xgboost, l' itération tente d'ajuster un arbre sur tous les exemples, ce qui minimise l'objectif suivant:f t ntttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] où sont des premier ordre et de second ordre sur notre meilleure estimation précédente (à partir de l'itération ):y t - 1gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) …

12 xgboost gbm

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Quelle est la différence entre xgboost binary: logistic et reg: logistic

Quelle est la différence de R dans xgboost entre binaire: logistique et reg: logistique? Est-ce uniquement dans la mesure d'évaluation? Si oui, comment RMSE sur la classification binaire se compare-t-il au taux d'erreur? La relation entre les métriques est-elle plus ou moins monotone, la sortie du réglage sur une métrique …

11 r logistic-regression xgboost

3

XGboost - Choix fait par modèle

J'utilise XGboost pour prédire une variable cible 2 classes sur les demandes d'assurance. J'ai un modèle (formation avec validation croisée, réglage d'hyper paramètres etc ...) que je lance sur un autre jeu de données. Ma question est : existe-t-il un moyen de savoir pourquoi une revendication donnée a été affectée …

10 xgboost

1

Gradient Boosting Tree: «plus il y a de variables, mieux c'est»?

D'après le tutoriel du XGBoost, je pense que lorsque chaque arbre grandit, toutes les variables sont analysées pour être sélectionnées pour fractionner les nœuds, et celle avec la répartition de gain maximale sera choisie. Donc, ma question est que si j'ajoutais des variables de bruit dans l'ensemble de données, ces …

10 xgboost self-study

1

Sortie de régression linéaire XGBoost incorrecte

Je suis un débutant pour XGBoost alors pardonnez mon ignorance. Voici le code python: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred La sortie …

10 python linear-regression xgboost

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Qu'entend-on par distribué pour une bibliothèque de renforcement de dégradé?

Je vérifie la documentation XGBoost et il est indiqué que XGBoost est une bibliothèque optimisée de renforcement de gradient distribué . Qu'entend-on par distribué? Bonne journée

9 xgboost distributed boosting

4

L'ingénierie des fonctionnalités est-elle toujours utile lors de l'utilisation de XGBoost?

Je lisais le matériel lié à XGBoost. Il semble que cette méthode ne nécessite aucune mise à l'échelle variable car elle est basée sur des arbres et celle-ci peut capturer des interactions complexes de modèle de non-linéarité. Et il peut gérer à la fois des variables numériques et catégorielles et …

9 xgboost feature-engineering

4

Pourquoi y a-t-il une différence entre la prédiction sur l'ensemble de validation et l'ensemble de tests?

J'ai un modèle XGBoost essayant de prédire si une devise montera ou descendra la prochaine période (5 min). J'ai un ensemble de données de 2004 à 2018. J'ai divisé les données randomisées en 95% de train et 5% de validation et la précision sur l'ensemble de validation est jusqu'à 55%. …

8 machine-learning xgboost

1

XGBoost pour la classification binaire: choisir le bon seuil

Je travaille sur un ensemble de données à étiquetage binaire très déséquilibré, où le nombre de véritables étiquettes est à seulement 7% de l'ensemble de données. Mais une combinaison de fonctionnalités pourrait produire un nombre supérieur à la moyenne de celles d'un sous-ensemble. Par exemple, nous avons le jeu de …

8 decision-trees xgboost

Questions marquées «xgboost»