Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

1
Importance des caractéristiques avec des caractéristiques catégorielles à cardinalité élevée pour la régression (variable dépendante numérique)
J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …


4
Comment savoir que le modèle a commencé à sur-ajuster?
J'espère que les extraits suivants donneront un aperçu de ce que sera ma question. Ils proviennent de http://neuralnetworksanddeeplearning.com/chap3.html L'apprentissage ralentit ensuite progressivement. Enfin, vers l'époque 280, la précision de la classification cesse de s'améliorer. Les époques ultérieures ne voient que de petites fluctuations stochastiques proches de la valeur de la …




3
Tensorflow Ajustement de la fonction de coût pour les données déséquilibrées
J'ai un problème de classification avec des données très déséquilibrées. J'ai lu que le suréchantillonnage et le sous-échantillonnage ainsi que la modification du coût des extrants catégoriels sous-représentés conduiront à un meilleur ajustement. Avant cela, tensorflow catégoriserait chaque entrée comme le groupe majoritaire (et gagnerait plus de 90% de précision, …

3
Besoin d'aide pour comprendre la proposition approximative de points de partage de xgboost
Contexte: dans xgboost, l' itération tente d'ajuster un arbre sur tous les exemples, ce qui minimise l'objectif suivant:f t ntttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] où sont des premier ordre et de second ordre sur notre meilleure estimation précédente (à partir de l'itération ):y t - 1gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) …
12 xgboost  gbm 



1
Sélection de fonctionnalités à l'aide d'importances de fonctionnalités dans des forêts aléatoires avec scikit-learn
J'ai tracé les importances des fonctionnalités dans des forêts aléatoires avec scikit-learn . Afin d'améliorer la prédiction à l'aide de forêts aléatoires, comment puis-je utiliser les informations de tracé pour supprimer des entités? C'est-à-dire comment repérer si une fonctionnalité est inutile ou pire encore une diminution des performances des forêts …

3
Aide concernant NER en NLTK
Je travaille en NLTK depuis un certain temps en utilisant Python. Le problème auquel je suis confronté est qu'il n'y a aucune aide disponible sur la formation NER en NLTK avec mes données personnalisées. Ils ont utilisé MaxEnt et l'ont formé sur le corpus ACE. J'ai beaucoup cherché sur le …




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.