Science des données

8

J'ai lu dans cet article que le langage R est adapté au Big Data que constituent les Big Data5TB , et bien qu'il fournisse un bon travail en fournissant des informations sur la faisabilité de travailler avec ce type de données, Ril fournit très peu d'informations sur Python. Je me …

14 bigdata python

2

Comment adapter les modèles de classement par paire dans xgBoost?

Pour autant que je sache, pour apprendre à classer les modèles, vous devez avoir trois éléments dans l'ensemble de données: étiquette ou pertinence identifiant de groupe ou de requête vecteur de fonction Par exemple, l' ensemble de données Microsoft Learning to Rank utilise ce format (étiquette, identifiant de groupe et …

14 search ranking xgboost gbm

3

Que signifie la sortie de la fonction model.predict de Keras?

J'ai construit un modèle LSTM pour prédire les questions en double sur le jeu de données officiel Quora. Les étiquettes de test sont 0 ou 1. 1 indique que la paire de questions est en double. Après avoir construit le modèle à l'aide model.fit, je teste le modèle à l'aide …

14 machine-learning python neural-network keras lstm

4

Distribution de jeux de tests et de formations différents

Je travaille sur un concours de science des données pour lequel la distribution de mon set de test est différente de la set de formation. Je veux sous-échantillonner les observations de l'ensemble d'apprentissage qui ressemble étroitement à l'ensemble de test. Comment puis-je faire ceci?

14 preprocessing

4

Nombre d'époques dans l'implémentation de Gensim Word2Vec

Il y a un iterparamètre dans l' gensimimplémentation de Word2Vec classe gensim.models.word2vec.Word2Vec (phrases = None, size = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0, seed = 1, workers = 1, min_alpha = 0.0001, sg = 1, hs = 1, négatif = …

14 gensim word2vec convergence

3

Pandas Dataframe à DMatrix

J'essaie d'exécuter xgboost dans scikit learn. Et j'utilise uniquement des Pandas pour charger des données dans la trame de données. Comment suis-je censé utiliser pandas df avec xgboost. Je suis confus par la routine DMatrix requise pour exécuter xgboost algo.

14 scikit-learn pandas xgboost

3

Comment utiliser LeakyRelu comme fonction d'activation dans la séquence DNN dans les keras? Quand il fonctionne mieux que Relu?

Comment utilisez-vous LeakyRelu comme fonction d'activation dans la séquence DNN en keras? Si je veux écrire quelque chose de similaire à: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) Quelle est la solution? Mettez LeakyRelu similaire à Relu? La deuxième question est: quel est le meilleur réglage général pour régler les paramètres de …

14 deep-learning keras activation-function

4

AlphaGo (et autres programmes de jeu utilisant l'apprentissage par renforcement) sans base de données humaine

Je ne suis pas un spécialiste du sujet, et ma question est probablement très naïve. Il découle d'un essai pour comprendre les pouvoirs et les limites de l'apprentissage par renforcement tel qu'il est utilisé dans le programme AlphaGo. Le programme AlphaGo a été construit en utilisant, entre autres (exploration Monte-Carlo …

13 reinforcement-learning

2

Pourquoi les algorithmes génétiques ne sont-ils pas utilisés pour optimiser les réseaux de neurones?

D'après ma compréhension, les algorithmes génétiques sont de puissants outils d'optimisation multi-objectifs. En outre, la formation des réseaux de neurones (en particulier les réseaux profonds) est difficile et pose de nombreux problèmes (fonctions de coût non convexes - minima locaux, gradients disparaissant et explosant, etc.). Je suis également convaincu que …

13 neural-network optimization genetic-algorithms

1

Quelle est la différence entre le suréchantillonnage et le suréchantillonnage bi-linéaire dans un CNN?

J'essaie de comprendre cet article et je ne suis pas sûr de ce qu'est le suréchantillonnage bi-linéaire. Quelqu'un peut-il expliquer cela à un niveau élevé? https://arxiv.org/abs/1606.00915

13 deep-learning convnet cnn convolution

4

Gradient Descent est-il au centre de chaque optimiseur?

Je veux savoir si la descente en gradient est le principal algorithme utilisé dans les optimiseurs comme Adam, Adagrad, RMSProp et plusieurs autres optimiseurs.

13 machine-learning neural-network deep-learning optimization gradient-descent

2

Pourquoi ne pas toujours utiliser la technique d'optimisation ADAM?

Il semble que l' optimiseur d' Adaptive Moment Estimation (Adam) fonctionne presque toujours mieux (plus rapidement et de manière plus fiable pour atteindre un minimum global) lors de la minimisation de la fonction de coût dans la formation des réseaux neuronaux. Pourquoi ne pas toujours utiliser Adam? Pourquoi s'embêter à …

13 neural-network optimization

1

Combien de fonctionnalités échantillonner à l'aide de forêts aléatoires

La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit: Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ppp fonctions p ⌋sont utilisées dans chaque division.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y …

13 statistics random-forest optimization evaluation sampling

1

XGBRegressor vs xgboost.train énorme différence de vitesse?

Si je forme mon modèle en utilisant le code suivant: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) il se termine en environ 1 minute. Si je forme mon …

13 machine-learning python decision-trees xgboost efficiency

1

Convertir une colonne pandas d'int en type de données d'horodatage

J'ai une trame de données qui, entre autres, contient une colonne du nombre de millisecondes écoulées depuis 1970-1-1. Je dois convertir cette colonne d'entiers en données d'horodatage, afin que je puisse ensuite la convertir en une colonne de données datetime en ajoutant la série de colonnes d'horodatage à une série …

13 python time-series data-cleaning pandas