Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

8
Python est-il adapté au Big Data
J'ai lu dans cet article que le langage R est adapté au Big Data que constituent les Big Data5TB , et bien qu'il fournisse un bon travail en fournissant des informations sur la faisabilité de travailler avec ce type de données, Ril fournit très peu d'informations sur Python. Je me …
14 bigdata  python 



4
Distribution de jeux de tests et de formations différents
Je travaille sur un concours de science des données pour lequel la distribution de mon set de test est différente de la set de formation. Je veux sous-échantillonner les observations de l'ensemble d'apprentissage qui ressemble étroitement à l'ensemble de test. Comment puis-je faire ceci?


3
Pandas Dataframe à DMatrix
J'essaie d'exécuter xgboost dans scikit learn. Et j'utilise uniquement des Pandas pour charger des données dans la trame de données. Comment suis-je censé utiliser pandas df avec xgboost. Je suis confus par la routine DMatrix requise pour exécuter xgboost algo.

3
Comment utiliser LeakyRelu comme fonction d'activation dans la séquence DNN dans les keras? Quand il fonctionne mieux que Relu?
Comment utilisez-vous LeakyRelu comme fonction d'activation dans la séquence DNN en keras? Si je veux écrire quelque chose de similaire à: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) Quelle est la solution? Mettez LeakyRelu similaire à Relu? La deuxième question est: quel est le meilleur réglage général pour régler les paramètres de …


2
Pourquoi les algorithmes génétiques ne sont-ils pas utilisés pour optimiser les réseaux de neurones?
D'après ma compréhension, les algorithmes génétiques sont de puissants outils d'optimisation multi-objectifs. En outre, la formation des réseaux de neurones (en particulier les réseaux profonds) est difficile et pose de nombreux problèmes (fonctions de coût non convexes - minima locaux, gradients disparaissant et explosant, etc.). Je suis également convaincu que …




1
Combien de fonctionnalités échantillonner à l'aide de forêts aléatoires
La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit: Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ppp fonctions p ⌋sont utilisées dans chaque division.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y …

1
XGBRegressor vs xgboost.train énorme différence de vitesse?
Si je forme mon modèle en utilisant le code suivant: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) il se termine en environ 1 minute. Si je forme mon …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.