Science des données

5

Quelles sont les méthodes standard de calcul de la distance entre les documents?

Lorsque je parle de "document", je pense à des pages Web telles que des articles de Wikipédia et des reportages. Je préfère les réponses donnant soit des métriques de distance lexicale vanille, soit des métriques de distance sémantiques de pointe, avec une préférence plus forte pour ces dernières.

34 machine-learning data-mining nlp text-mining similarity

7

Processus organisés pour nettoyer les données

Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …

34 r data-cleaning

5

Ouverture d’un fichier de 20 Go pour analyse avec des pandas

J'essaie actuellement d'ouvrir un fichier contenant des pandas et du python à des fins d'apprentissage automatique. Il serait idéal pour moi de les avoir tous dans un DataFrame. Maintenant, le fichier fait 18 Go et ma mémoire vive de 32 Go, mais je continue à avoir des erreurs de mémoire. …

33 python bigdata pandas anaconda

3

Multi GPU en keras

Comment pouvez-vous programmer dans la bibliothèque keras (ou tensorflow) pour partitionner la formation sur plusieurs GPU? Supposons que vous vous trouviez dans une instance Amazon ec2 comportant 8 GPU et que vous souhaitiez toutes les utiliser pour vous entraîner plus rapidement, mais que votre code ne concerne qu'un seul processeur …

33 python deep-learning tensorflow keras gpu

4

Explication intuitive de la perte d'estimation NCE (Noise Contrastive Estimation)?

J'ai lu sur NCE (une forme d'échantillonnage de candidats) à partir de ces deux sources: Rédaction Tensorflow Papier original Quelqu'un peut-il m'aider avec les éléments suivants: Une explication simple du fonctionnement des RCE (j'ai trouvé les éléments ci-dessus difficiles à analyser et à comprendre, donc quelque chose d'intuitif qui mène …

32 deep-learning tensorflow word-embeddings sampling loss-function

1

Papier: Quelle est la différence entre la normalisation des calques, la normalisation des lots récurrents (2016) et le RNN normalisé par lots (2015)?

Donc, récemment, il y a un papier de normalisation des calques . Il existe également une implémentation de celui-ci sur Keras. Mais je me souviens qu'il y a des articles intitulés Recurrent Batch Normalization (Cooijmans, 2016) et Batch Normalized Recurrent Neural Networks (Laurent, 2015). Quelle est la différence entre ces …

31 deep-learning rnn normalization batch-normalization

5

Convertir une liste de listes en un cadre de données Pandas

J'essaie de convertir une liste de listes qui ressemble à la suivante en un cadre de données Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees …

31 pandas

5

Quels sont les cas d'utilisation pour Apache Spark vs Hadoop

Avec Hadoop 2.0 et YARN, Hadoop ne serait plus lié uniquement aux solutions de réduction de carte. Avec cet avancement, quels sont les cas d'utilisation d'Apache Spark vs Hadoop considérant que les deux se trouvent au sommet de HDFS? J'ai lu la documentation d'introduction de Spark, mais je suis curieux …

30 apache-hadoop distributed knowledge-base

1

Quel est le meilleur modèle Keras pour la classification multi-classes?

Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon …

30 python neural-network classification clustering keras

5

Deep Learning vs boosting de gradient: quand utiliser quoi?

J'ai un gros problème de données avec un grand ensemble de données (prenez par exemple 50 millions de lignes et 200 colonnes). L'ensemble de données comprend environ 100 colonnes numériques et 100 colonnes catégorielles et une colonne de réponse qui représente un problème de classe binaire. La cardinalité de chacune …

30 machine-learning classification deep-learning

5

Qu'est-ce que la fonction Q et quelle est la fonction V dans l'apprentissage par renforcement?

Il me semble que la fonction VVV peut être facilement exprimée par la fonction QQQ et donc la fonction VVV me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé. Définitions L'apprentissage Q et V s'inscrit dans le contexte des processus …

30 machine-learning reinforcement-learning

3

Dans le classificateur softmax, pourquoi utiliser la fonction exp pour effectuer la normalisation?

Pourquoi utiliser softmax par opposition à la normalisation standard? Dans la zone de commentaire de la première réponse à cette question, @Kilian Batzner a soulevé 2 questions qui me déroutent également beaucoup. Il semble que personne ne donne d'explication à l'exception des avantages numériques. J'ai les raisons d'utiliser la perte …

30 machine-learning deep-learning

7

Pourquoi les données doivent-elles être mélangées pour les tâches d'apprentissage automatique

Dans les tâches d'apprentissage automatique, il est courant de mélanger les données et de les normaliser. Le but de la normalisation est clair (pour avoir la même plage de valeurs de caractéristiques). Mais, après beaucoup de difficultés, je n'ai trouvé aucune raison valable de mélanger les données. J'ai lu ce …

30 machine-learning neural-network deep-learning

2

Quelle est la vérité fondamentale

Dans le contexte du Machine Learning , j'ai vu le terme Ground Truth beaucoup utilisé. J'ai beaucoup cherché et trouvé la définition suivante dans Wikipedia : Dans l'apprentissage automatique, le terme «vérité terrain» fait référence à l'exactitude de la classification de l'ensemble d'apprentissage pour les techniques d'apprentissage supervisé. Ceci est …

30 machine-learning neural-network deep-learning

1

Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning