Science des données python

5

Les bibliothèques R et / ou Python modernes rendent-elles SQL obsolète?

Je travaille dans un bureau où SQL Server est l'épine dorsale de tout ce que nous faisons, du traitement des données au nettoyage en passant par le munging. Mon collègue est spécialisé dans l'écriture de fonctions complexes et de procédures stockées pour traiter méthodiquement les données entrantes afin qu'elles puissent …

14 python r data-cleaning data sql

4

Comment initialiser un nouveau modèle word2vec avec des poids de modèle pré-formés?

J'utilise Gensim Library en python pour utiliser et former le modèle word2vector. Récemment, je cherchais à initialiser mes poids de modèle avec un modèle word2vec pré-formé tel que (modèle pré-formé GoogleNewDataset). J'ai du mal avec ça quelques semaines. Maintenant, je viens de découvrir que dans gesim il y a une …

14 python nlp word-embeddings word2vec gensim

8

Python est-il adapté au Big Data

J'ai lu dans cet article que le langage R est adapté au Big Data que constituent les Big Data5TB , et bien qu'il fournisse un bon travail en fournissant des informations sur la faisabilité de travailler avec ce type de données, Ril fournit très peu d'informations sur Python. Je me …

14 bigdata python

3

Que signifie la sortie de la fonction model.predict de Keras?

J'ai construit un modèle LSTM pour prédire les questions en double sur le jeu de données officiel Quora. Les étiquettes de test sont 0 ou 1. 1 indique que la paire de questions est en double. Après avoir construit le modèle à l'aide model.fit, je teste le modèle à l'aide …

14 machine-learning python neural-network keras lstm

1

XGBRegressor vs xgboost.train énorme différence de vitesse?

Si je forme mon modèle en utilisant le code suivant: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) il se termine en environ 1 minute. Si je forme mon …

13 machine-learning python decision-trees xgboost efficiency

1

Convertir une colonne pandas d'int en type de données d'horodatage

J'ai une trame de données qui, entre autres, contient une colonne du nombre de millisecondes écoulées depuis 1970-1-1. Je dois convertir cette colonne d'entiers en données d'horodatage, afin que je puisse ensuite la convertir en une colonne de données datetime en ajoutant la série de colonnes d'horodatage à une série …

13 python time-series data-cleaning pandas

5

L'importance des fonctionnalités avec scikit-learn Random Forest montre un écart-type très élevé

J'utilise scikit-learn Random Forest Classifier et je veux tracer l'importance des fonctionnalités, comme dans cet exemple . Cependant, mon résultat est complètement différent, dans le sens où l'écart-type de l'importance des fonctionnalités est presque toujours plus important que l'importance des fonctionnalités elle-même (voir l'image jointe). Est-il possible d'avoir un tel …

13 python random-forest

1

Prévisions de séries chronologiques multidimensionnelles et multivariées (RNN / LSTM) Keras

J'ai essayé de comprendre comment représenter et façonner les données pour faire une prévision de séries chronologiques multidimentionnelles et multivariées en utilisant Keras (ou TensorFlow) mais je ne suis toujours pas très clair après avoir lu de nombreux articles de blog / tutoriels / documentation sur la façon de présenter …

12 python keras rnn lstm

2

La perte de validation et la précision restent constantes

J'essaie de mettre en œuvre ce document sur un ensemble d'images médicales. Je le fais à Keras. Le réseau se compose essentiellement de 4 couches conv et max-pool suivies d'une couche entièrement connectée et d'un classificateur soft max. Pour autant que je sache, j'ai suivi l'architecture mentionnée dans l'article. Cependant, …

12 machine-learning python deep-learning keras

3

Aide concernant NER en NLTK

Je travaille en NLTK depuis un certain temps en utilisant Python. Le problème auquel je suis confronté est qu'il n'y a aucune aide disponible sur la formation NER en NLTK avec mes données personnalisées. Ils ont utilisé MaxEnt et l'ont formé sur le corpus ACE. J'ai beaucoup cherché sur le …

12 machine-learning python nlp

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

5

De bons packages d '«exploration de séquences fréquentes» en Python?

Quelqu'un a-t-il utilisé (et aimé) de bons packages "d'exploration de séquences fréquentes" en Python autres que le FPM dans MLLib? Je recherche un package stable, de préférence encore maintenu par des personnes. Je vous remercie!

12 python sequential-pattern-mining

2

Réduction efficace de la dimensionnalité pour un grand ensemble de données

J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K. sklearn.decomposition.PCAne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVDmais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options …

12 python scikit-learn dimensionality-reduction

3

Remplacer toutes les valeurs numériques dans une trame de données pyspark par une valeur constante

Considérons une trame de données pyspark composée d'éléments «nuls» et d'éléments numériques. En général, les éléments numériques ont des valeurs différentes. Comment est-il possible de remplacer toutes les valeurs numériques de la trame de données par une valeur numérique constante (par exemple par la valeur 1)? Merci d'avance! Exemple pour …

12 python apache-spark

2

Quand utiliser Standard Scaler et quand Normalizer?

Je comprends ce que fait Standard Scalar et ce que fait Normalizer, selon la documentation de scikit: Normalizer , Standard Scaler . Je sais quand Standard Scaler est appliqué. Mais dans quel scénario le Normalizer est-il appliqué? Y a-t-il des scénarios où l'un est préféré à l'autre?

12 python scikit-learn data-cleaning normalization

Questions marquées «python»