Science des données

1

Calculer la similitude du cosinus dans Apache Spark

J'ai un DataFrame avec IDF de certains mots calculés. Par exemple (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Donnez maintenant une requête Q, je peux calculer le TF-IDF de cette requête. Comment calculer la similitude cosinus de la requête avec tous les documents dans la trame de données (il y a …

9 machine-learning nlp apache-spark cosine-distance

2

Liste des techniques d'ingénierie des fonctionnalités

Existe-t-il une ressource avec une liste de techniques d'ingénierie des fonctionnalités? Une cartographie du type de données, du modèle et de la technique d'ingénierie des caractéristiques serait une mine d'or

9 feature-selection feature-extraction feature-engineering feature-construction featurization

1

Dois-je prendre des éléments aléatoires pour une descente en gradient en mini-batch?

Lors de la mise en œuvre de la descente de gradient en mini-batch pour les réseaux de neurones, est-il important de prendre des éléments aléatoires dans chaque mini-batch? Ou est-ce suffisant de mélanger les éléments au début de la formation une fois? (Je suis également intéressé par des sources qui …

9 machine-learning neural-network

6

Python: gestion des classes de déséquilibre dans python Machine Learning

J'ai un ensemble de données pour lequel j'essaie de prédire les variables cibles. Col1 Col2 Col3 Col4 Col5 1 2 23 11 1 2 22 12 14 1 22 11 43 38 3 14 22 25 19 3 12 42 11 14 1 22 11 43 38 2 1 2 …

9 machine-learning python data-mining dataset pandas

1

Comprendre l'apprentissage par renforcement avec Neural Net (Q-learning)

J'essaie de comprendre l'apprentissage par renforcement et les processus de décision markoviens (MDP) dans le cas où un réseau neuronal est utilisé comme approximateur de fonction. J'ai des difficultés avec la relation entre le MDP où l'environnement est exploré de manière probabiliste, comment cela correspond aux paramètres d'apprentissage et comment …

9 machine-learning neural-network q-learning

2

Étapes de l'apprentissage automatique

Laquelle des options ci-dessous est la bonne lors de la création d'un modèle prédictif? Option 1: Éliminez d'abord les prédicteurs les plus manifestement mauvais et prétraitez les autres si nécessaire, puis entraînez divers modèles avec validation croisée, choisissez les meilleurs, identifiez les meilleurs prédicteurs que chacun a utilisés, puis reconvertissez …

9 machine-learning predictive-modeling

1

Pourquoi la reconstruction dans les encodeurs automatiques utilise-t-elle la même fonction d'activation que l'activation directe, et non l'inverse?

Supposons que vous ayez une couche d'entrée avec n neurones et que la première couche cachée ait neurones, avec typiquement . Ensuite, vous calculez l'activation du ème neurone dans la couche cachée parmmmm < nm<nm < nunejuneja_jjjj unej= f(∑i = 1 .. nwi , jXje+bj)unej=F(∑je=1..nwje,jXje+bj)a_j = f\left(\sum\limits_{i=1..n} w_{i,j} x_i+b_j\right) , …

9 machine-learning visualization deep-learning autoencoder

1

Comprendre le décrochage et la descente du gradient

Je regarde comment implémenter le décrochage sur un réseau de neurones profond et j'ai trouvé quelque chose de contre-intuitif. Dans la phase avant, les activations du masque de décrochage avec un tenseur aléatoire de 1 et 0 pour forcer le filet à apprendre la moyenne des poids. Cela aide le …

9 neural-network deep-learning gradient-descent

2

Taille prohibitive de la forêt aléatoire lors de l'enregistrement sur le disque

Lorsqu'il est enregistré sur le disque à l'aide de cPickle: /programming/20662023/save-python-random-forest-model-to-file , ma forêt aléatoire est de 6,57 Go. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Je veux utiliser la forêt elle-même pour faire des prédictions via une API python hébergée sur Heroku - bien sûr, cette taille de fichier …

9 python random-forest

1

Python Seaborn: comment les barres d'erreur sont-elles calculées dans les graphiques à barres?

J'utilise la bibliothèque seaborn pour générer des graphiques à barres en python. Je me demande quelles statistiques sont utilisées pour calculer les barres d'erreur, mais je ne trouve aucune référence à cela dans la documentation de barplot du seaborn . Je sais que les valeurs des barres sont calculées en …

9 python visualization

1

Comment puis-je faire un apprentissage automatique simple sans comportement de codage en dur? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 6 ans . J'ai toujours été intéressé par l'apprentissage automatique, mais je ne …

9 machine-learning

1

En utilisant SVM comme classificateur binaire, l'étiquette d'un point de données est-elle choisie par consensus?

J'apprends Support Vector Machines , et je ne peux pas comprendre comment une étiquette de classe est choisie pour un point de données dans un classificateur binaire. Est-il choisi par consensus par rapport à la classification dans chaque dimension de l'hyperplan séparateur?

9 svm classification binary

3

API de prédiction Google: quelles méthodes de formation / prédiction l'API Google Prediction utilise-t-elle?

Les détails de l'API Google Prediction sont sur cette page , mais je ne trouve aucun détail sur les algorithmes de prédiction exécutés derrière l'API. Jusqu'à présent, j'ai compris qu'ils vous permettaient de fournir vos étapes de prétraitement au format PMML.

9 tools

1

Quelle est la meilleure mesure de performances utilisée pour équilibrer l'ensemble de données à l'aide de la technique SMOTE

J'ai utilisé la technique smote pour suréchantillonner mon jeu de données et maintenant j'ai un jeu de données équilibré. Le problème que j'ai rencontré est que les mesures de performance; la précision, le rappel, la mesure f1, la précision dans l'ensemble de données déséquilibré sont mieux effectués qu'avec un ensemble …

8 performance

1

Le point de contrôle Model Keras ne fonctionne pas

J'essaie de former un modèle en keras et j'utilise ModelCheckpoint pour enregistrer le meilleur modèle selon une métrique de validation surveillée (dans mon cas, l' indice Jaccard ). Bien que je puisse voir le modèle s'améliorer dans le tensorboard, lorsque j'essaie de charger les poids et d'évaluer le modèle, il …

8 keras convnet