Science des données

2

Utilisation de la PNL pour automatiser la catégorisation de la description utilisateur

J'ai un énorme fichier de plaintes de clients concernant les produits que ma société possède et je voudrais faire une analyse des données sur ces descriptions et étiqueter une catégorie pour chacune d'entre elles. Par exemple: je dois déterminer le nombre de réclamations côté logiciel et matériel de mon produit …

8 data-mining classification nlp categorical-data

2

Groupement d'unions dans les graphes bipartis?

J'essaie de trouver une bonne (et rapide) solution au problème suivant: J'ai deux modèles avec lesquels je travaille, appelons-les joueurs et équipes. Un joueur peut appartenir à plusieurs équipes et une équipe peut avoir plusieurs joueurs). Je travaille sur la création d'un élément d'interface utilisateur sur un formulaire qui permet …

8 graphs

1

Quelques suggestions pour une carrière en science des données ou en modélisation prédictive

Je cherche à choisir ma carrière dans le domaine de la science de la décision ou de la modélisation prédictive et je suis conscient que cela est basé sur une opinion, mais j'aimerais avoir des suggestions d'experts pour que je puisse l'utiliser pour construire ma carrière dans la bonne voie. …

8 education beginner career

1

Différence entre tf-idf et tf avec Random Forests

Je travaille sur un problème de classification de texte en utilisant Random Forest comme classificateurs et une approche par sac de mots. J'utilise l'implémentation de base de Random Forests (celle présente dans scikit), qui crée une condition binaire sur une seule variable à chaque division. Compte tenu de cela, existe-t-il …

8 classification text-mining random-forest

2

Comment construire un moteur de recherche textuel?

J'ai une chaîne HTML et je veux savoir si un mot que je fournis est pertinent dans cette chaîne. La pertinence pourrait être mesurée en fonction de la fréquence dans le texte. Un exemple pour illustrer mon problème: this is an awesome bike store bikes can be purchased online. the …

8 machine-learning data-mining

1

Erreur R lors de l'utilisation du package tm (text-mining)

J'essaie d'utiliser le paquet tm pour convertir un vecteur de chaînes de texte en élément corpus. Mon code ressemble à ceci Corpus(d1$Yes) où d1$Yesest un facteur avec 124 niveaux, chacun contenant une chaîne de texte. Par exemple, d1$Yes[246] = "So we can get the boat out!" Je reçois l'erreur suivante: …

8 r text-mining

1

Pourquoi une machine Boltzman restreinte (RBM) a tendance à apprendre des poids très similaires?

Ce sont 4 matrices de poids différentes que j'ai obtenues après avoir entraîné une machine Boltzman restreinte (RBM) avec environ 4k unités visibles et seulement 96 unités cachées / vecteurs de poids. Comme vous pouvez le voir, les poids sont extrêmement similaires - même les pixels noirs sur le visage …

8 rbm

3

À quoi sert la collecte de données utilisateur en plus de diffuser des annonces?

Eh bien, cela ressemble à l'endroit le plus approprié pour cette question. Chaque site Web collecte des données sur l'utilisateur, certaines uniquement pour la convivialité et la personnalisation, mais la majorité comme les réseaux sociaux suivent chaque mouvement sur le Web, certaines applications gratuites sur votre téléphone analysent les messages …

8 data-mining

2

Quelles sont les méthodes standard de calcul de la distance entre les requêtes de recherche individuelles?

J'ai posé une question similaire concernant la distance entre les "documents" (articles Wikipedia, actualités, etc.). J'ai fait de cette question une question distincte car les requêtes de recherche sont considérablement plus petites que les documents et sont considérablement plus bruyantes. Je ne sais donc pas (et je doute) si les …

8 machine-learning nlp search

4

Science des données et modèle de programmation MapReduce de Hadoop

Quelles sont les différentes classes de problèmes de science des données qui peuvent être résolus en utilisant le modèle de programmation mapreduce?

8 apache-hadoop map-reduce

4

Tutoriel d'apprentissage automatique en ligne

Quelqu'un connaît-il de bons tutoriels sur les techniques d'apprentissage automatique en ligne? C'est-à-dire comment il peut être utilisé dans des environnements en temps réel, quelles sont les principales différences par rapport aux méthodes normales d'apprentissage automatique, etc. UPD: Merci à tous pour les réponses, par "en ligne" je veux dire …

8 machine-learning education beginner

2

Augmentation linéaire des données avec réinitialisation manuelle

J'ai un ensemble de données de série temporelle à augmentation linéaire d'un capteur, avec des plages de valeurs comprises entre 50 et 150. J'ai implémenté un algorithme de régression linéaire simple pour ajuster une ligne de régression sur ces données, et je prédis la date à laquelle la série atteindrait …

8 machine-learning statistics time-series

3

Score de similitude des chaînes de matrice

J'ai une charge de documents, qui ont une charge de paires de valeurs clés en eux. La clé peut ne pas être unique, il peut donc y avoir plusieurs clés du même type avec des valeurs différentes. Je veux comparer la similitude des clés entre 2 documents. Plus précisément la …

8 algorithms similarity

1

Erreur en cascade dans Apache Storm

En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le cluster Hadoop est utilisé pour traiter …

8 bigdata apache-hadoop

3

Sélection de fonctionnalités pour suivre l'activité des utilisateurs dans une application

Je développe un système qui vise à capturer le "contexte" de l'activité des utilisateurs dans une application; il s'agit d'un cadre que les applications Web peuvent utiliser pour baliser l'activité des utilisateurs en fonction des demandes adressées au système. On espère que ces données pourront ensuite alimenter des fonctionnalités ML …

8 feature-selection