Science des données

3

Comment faire un produit intérieur par lots dans Tensorflow?

J'ai deux tenseur a:[batch_size, dim] b:[batch_size, dim]. Je veux faire un produit intérieur pour chaque paire du lot, en générant c:[batch_size, 1], où c[i,0]=a[i,:].T*b[i,:]. Comment?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

3

Quand le cache expire-t-il pour un RDD dans pyspark?

Nous utilisons .cache()sur RDD pour la mise en cache persistante d'un ensemble de données, ma préoccupation est quand cette mise en cache expirera?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

Regroupement pour des données numériques et numériques discrètes mixtes

Mes données incluent les réponses au sondage qui sont binaires (numériques) et nominales / catégoriques. Toutes les réponses sont discrètes et au niveau individuel. Les données sont de forme (n = 7219, p = 105). Quelques choses: J'essaie d'identifier une technique de clustering avec une mesure de similitude qui fonctionnerait …

10 clustering k-means scikit-learn categorical-data

3

Comment puis-je classer le texte en tenant compte de l'ordre des mots, au lieu d'utiliser simplement une approche par sac de mots?

J'ai créé un classificateur Naive Bayes qui utilise la technique du sac de mots pour classer les messages de spam sur un babillard. Cela fonctionne, mais je pense que je pourrais obtenir de bien meilleurs résultats si mes modèles tenaient compte des ordonnances et des phrases. (ex: «filles» et «en …

10 classification

3

NASDAQ Trade Data

J'essaie de trouver des données boursières pour m'entraîner, existe-t-il une bonne ressource pour cela? J'ai trouvé ceci: ftp://emi.nasdaq.com/ITCH/ mais il n'a que l'année en cours. J'ai déjà un moyen d'analyser le protocole, mais j'aimerais avoir plus de données avec lesquelles comparer. Il ne doit pas nécessairement être dans le même …

10 data-mining dataset

4

Données multi-classes asymétriques

J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 …

10 classification svm

1

Qu'est-ce qu'un modèle génératif et discriminant? Comment sont-ils utilisés dans le traitement du langage naturel?

Cette question porte sur l'algorithme génératif contre discriminant, mais quelqu'un peut-il donner un exemple de la différence entre ces formes lorsqu'il est appliqué au traitement du langage naturel? Comment les modèles génératifs et discriminants sont-ils utilisés dans la PNL?

10 nlp language-model

5

Comment créer une bonne liste de mots vides

Je suis à la recherche de conseils sur la façon de gérer une liste de mots vides. Quelqu'un sait-il / quelqu'un peut-il recommander une bonne méthode pour extraire des listes de mots vides du jeu de données lui-même pour le prétraitement et le filtrage? Les données: une énorme quantité de …

9 data-mining nlp information-retrieval language-model

1

Qu'entend-on par distribué pour une bibliothèque de renforcement de dégradé?

Je vérifie la documentation XGBoost et il est indiqué que XGBoost est une bibliothèque optimisée de renforcement de gradient distribué . Qu'entend-on par distribué? Bonne journée

9 xgboost distributed boosting

1

L'apprentissage par renforcement peut-il être appliqué pour la prévision de séries chronologiques?

9 time-series reinforcement-learning forecasting

2

La normalisation par lots signifie-t-elle que les sigmoids fonctionnent mieux que les ReLU?

La normalisation des lots et les ReLU sont tous deux des solutions au problème du gradient de fuite. Si nous utilisons la normalisation par lots, devrions-nous alors utiliser des sigmoïdes? Ou existe-t-il des fonctionnalités des ReLU qui en valent la peine, même lorsque vous utilisez batchnorm? Je suppose que la …

9 deep-learning batch-normalization

1

Pourquoi mon modèle Keras apprend-il à reconnaître l'arrière-plan?

J'essaie de former cette implémentation Keras de Deeplabv3 + sur Pascal VOC2012, en utilisant le modèle pré-formé (qui a également été formé sur cet ensemble de données). J'ai obtenu des résultats étranges avec une précision convergeant rapidement vers 1.0: 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 …

9 python deep-learning keras tensorflow

4

SGDClassifier: apprentissage en ligne / partial_fit avec une étiquette inconnue auparavant

Mon ensemble de formation contient environ 50k entrées avec lesquelles je fais un apprentissage initial. Sur une base hebdomadaire, environ 5 000 entrées sont ajoutées; mais la même quantité "disparaît" (car ce sont les données utilisateur qui doivent être supprimées après un certain temps). Par conséquent, j'utilise l'apprentissage en ligne …

9 multiclass-classification online-learning

2

quelles techniques machine / deep learning / nlp sont utilisées pour classer un mot donné comme nom, numéro de mobile, adresse, email, état, comté, ville, etc.

J'essaie de générer un modèle intelligent qui peut analyser un ensemble de mots ou de chaînes et les classer en tant que noms, numéros mobiles, adresses, villes, États, pays et autres entités à l'aide de l'apprentissage automatique ou de l'apprentissage profond. J'avais cherché des approches, mais malheureusement je n'ai trouvé …

9 machine-learning deep-learning text-mining natural-language-process