Science des données

1

Utilisation des données de séries temporelles d'un capteur pour ML

J'ai les données suivantes pour un petit projet parallèle. Cela vient d'un accéléromètre posé sur une laveuse / sécheuse et j'aimerais qu'il me dise quand la machine est terminée. x est les données d'entrée (mouvement x / y / z comme une valeur), y est l'étiquette activée / désactivée Parce …

8 machine-learning time-series feature-engineering

2

Pourquoi le sur-ajustement ne détruit-il pas les réseaux de neurones pour la classification MNIST?

J'ai un réseau neuronal simple (NN) pour la classification MNIST. Il comprend 2 couches cachées, chacune avec 500 neurones. Les dimensions du NN sont donc: 784-500-500-10. ReLU est utilisé dans tous les neurones, softmax est utilisé en sortie et l'entropie croisée est la fonction de perte. Ce qui m'intrigue, c'est …

8 machine-learning neural-network classification overfitting

1

Naive Bayes pour la classification de texte multi-étiquettes

Comment utiliser Naive Bayes pour la classification de texte multi-étiquettes dans R. J'ai essayé d'utiliser naiveBayes () de la bibliothèque e1071 mais il semble que pendant la formation, il n'accepte pas la variable de classe multi-étiquettes. J'ai créé TermDocumentMatrix en utilisant le corpus de document texte et j'ai essayé de …

8 multilabel-classification naive-bayes-classifier

1

XGBoost pour la classification binaire: choisir le bon seuil

Je travaille sur un ensemble de données à étiquetage binaire très déséquilibré, où le nombre de véritables étiquettes est à seulement 7% de l'ensemble de données. Mais une combinaison de fonctionnalités pourrait produire un nombre supérieur à la moyenne de celles d'un sous-ensemble. Par exemple, nous avons le jeu de …

8 decision-trees xgboost

4

Les circonvolutions «aplatissent-elles les images»?

Je suis à la recherche d'une bonne explication du fonctionnement des circonvolutions dans l'apprentissage profond lorsqu'elles sont appliquées à des images multicanaux. Par exemple, disons que j'ai une image de 100 x 100 pixels avec trois canaux, RVB. Le tenseur d'entrée aurait alors des dimensions 100 x 100 x 3. …

8 deep-learning convnet

2

Gain d'informations en R

J'ai trouvé des packages utilisés pour calculer le "gain d'informations" pour sélectionner les principaux attributs dans l'arbre de décision C4.5 et j'ai essayé de les utiliser pour calculer le "gain d'informations". Mais les résultats du calcul de chaque paquet sont différents comme le code ci-dessous. > IG.CORElearn <- attrEval(In_Occu ~ …

8 r decision-trees

3

De quelles connaissances ai-je besoin pour écrire un simple programme d'IA pour jouer à un jeu?

Je suis diplômé du B.Sc. L'un de mes cours était «Introduction à l'apprentissage automatique», et j'ai toujours voulu faire un projet personnel dans ce sujet. J'ai récemment entendu parler de différentes formations à l'IA pour jouer à des jeux tels que Mario, Go, etc. Quelles connaissances dois-je acquérir pour former …

8 machine-learning algorithms beginner reinforcement-learning training

1

Apprentissage automatique: écrire des poèmes

Je suis un étudiant en apprentissage automatique et ces jours-ci, j'essayais d'apprendre à utiliser la bibliothèque TensorFlow. J'ai parcouru divers tutoriels et essais et erreurs avec tensorflow, et je pensais que la meilleure façon de l'apprendre pour de vrai serait de l'utiliser dans un petit projet à moi. J'ai décidé …

8 machine-learning neural-network tensorflow

4

Classe non équilibrée: class_weight pour les algorithmes ML dans Spark MLLib

Dans python sklearn, il existe plusieurs algorithmes (par exemple la régression, la forêt aléatoire ... etc.) qui ont le paramètre class_weight pour gérer les données non équilibrées. Cependant, je ne trouve pas un tel paramètre pour les algorithmes MLLib. Existe-t-il un plan d'implémentation de class_weight pour certains algorithmes MLLib? Ou …

8 machine-learning apache-spark unbalanced-classes weighted-data

1

Est-ce que les séries chronologiques à plusieurs étapes anticipent un problème de séquence à séquence?

J'utilise le package keras afin de former un LSTM pour une série temporelle univariée de type numérique (float). La réalisation d'une prévision à 1 étape est triviale, mais je ne sais pas comment effectuer, disons, une prévision à 10 étapes. Deux questions: 1) J'ai lu des séquences sur des NN, …

8 time-series keras

1

Questions lors de la transition d'un réseau neuronal vanille à un réseau neuronal récurrent

J'ai récemment appris comment un réseau neuronal vanille fonctionnerait, avec un nombre donné d'entrées, des nœuds cachés et le même nombre de sorties que les entrées. J'ai regardé divers articles liés au réseau neuronal récurrent, et je comprends le concept derrière, mais je n'arrive pas à comprendre certaines parties de …

8 machine-learning python neural-network rnn

1

Pourquoi la formation des RNN n'utilise-t-elle pas 100% du GPU?

Je me demande pourquoi la formation des RNN n'utilise généralement pas 100% du GPU. Par exemple, si j'exécute ce test RNN sur un Maxwell Titan X sur Ubuntu 14.04.4 LTS x64, l'utilisation du GPU est inférieure à 90%: Le benchmark a été lancé à l'aide de la commande: python rnn.py …

8 performance theano rnn gpu

2

Un sur-ajustement peut-il se produire dans les algorithmes d'optimisation avancée?

en prenant un cours en ligne sur l'apprentissage automatique par Andrew Ng sur coursera, je suis tombé sur un sujet appelé surapprentissage . Je sais que cela peut se produire lorsque la descente de gradient est utilisée dans une régression linéaire ou logistique, mais peut-elle se produire lorsque des algorithmes …

8 machine-learning regression optimization gradient-descent overfitting

3

Comment évaluer le clustering de texte?

Quelles mesures peuvent être utilisées pour évaluer les modèles de clustering de texte? J'ai utilisé tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Comment décider quel modèle est le meilleur?

8 machine-learning clustering text-mining

2

Modèles d'apprentissage automatique en environnement de production

Disons qu'un modèle a été formé à la date utilisant les données étiquetées disponibles, divisé en formation et test, c'est-à-dire , test_ {dt1} . Ce modèle est ensuite déployé en production et fait des prédictions sur les nouvelles données entrantes. Certains jours X passent et il y a un tas …

8 machine-learning cross-validation model-selection data-product