Science des données

1

Hashing Trick - ce qui se passe réellement

Lorsque les algorithmes ML, par exemple Vowpal Wabbit ou certaines des machines de factorisation remportant des concours de taux de clics ( Kaggle ), mentionnent que les fonctionnalités sont «hachées», qu'est-ce que cela signifie réellement pour le modèle? Disons qu'il existe une variable qui représente l'ID d'une annonce Internet, qui …

12 machine-learning predictive-modeling kaggle

2

Données de sentiment pour Emoji

Pour expérimenter, nous aimerions utiliser les Emoji intégrés dans de nombreux Tweets comme données de vérité / formation au sol pour une analyse quantitative de sénitment simple. Les tweets sont généralement trop peu structurés pour que la PNL fonctionne correctement. Quoi qu'il en soit, il y a 722 Emoji dans …

12 machine-learning classification parsing

3

Classification de texte non structurée

Je vais classer les documents texte non structurés, à savoir les sites Web de structure inconnue. Le nombre de classes auxquelles je classe est limité (à ce stade, je pense qu'il n'y en a pas plus de trois). Quelqu'un at-il une suggestion sur la façon dont je pourrais commencer? L'approche …

12 machine-learning classification text-mining beginner

3

Modèle de base de données efficace pour stocker des données indexées par n-grammes

Je travaille sur une application qui nécessite de créer une très grande base de données de n-grammes qui existent dans un grand corpus de texte. J'ai besoin de trois types d'opérations efficaces: recherche et insertion indexées par le n-gramme lui-même, et interrogation pour tous les n-grammes qui contiennent un sous-n-gramme. …

12 nlp databases

3

Prédire la prochaine condition médicale à partir des conditions passées dans les données sur les réclamations

Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM). Mes objectifs sont de: …

12 machine-learning r

3

Mesure des performances de différents classificateurs avec différentes tailles d'échantillons

J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné. Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, …

12 classification performance

1

Quelle est la différence entre les méthodes de compression globale et universelle?

Je comprends que les méthodes de compression peuvent être divisées en deux ensembles principaux: global local Le premier ensemble fonctionne indépendamment des données en cours de traitement, c'est-à-dire qu'ils ne s'appuient sur aucune caractéristique des données et n'ont donc pas besoin d'effectuer de prétraitement sur aucune partie de l'ensemble de …

12 classification algorithms encoding

2

Algorithme de correspondance des préférences

Il y a ce projet parallèle sur lequel je travaille où j'ai besoin de structurer une solution au problème suivant. J'ai deux groupes de personnes (clients). Le groupe a l' Aintention d'acheter et le groupe a l' Bintention de vendre un produit déterminé X. Le produit a une série d'attributs …

12 bigdata text-mining recommender-system

3

Amazon RedShift remplace-t-il Hadoop pour les données ~ 1XTB?

Il y a beaucoup de battage médiatique autour de Hadoop et de son écosystème. Cependant, dans la pratique, lorsque de nombreux ensembles de données se situent dans la plage de téraoctets, n'est-il pas plus raisonnable d'utiliser Amazon RedShift pour interroger des ensembles de données volumineux, plutôt que de consacrer du …

12 apache-hadoop map-reduce aws

9

Quelles sont les applications d'apprentissage automatique faciles à apprendre? [fermé]

Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 5 ans . Étant nouveau dans l'apprentissage automatique …

12 machine-learning

2

Compromis entre Storm et Hadoop (MapReduce)

Quelqu'un peut-il bien vouloir me parler des compromis impliqués lors du choix entre Storm et MapReduce dans Hadoop Cluster pour le traitement des données? Bien sûr, en dehors de l'évidence, Hadoop (traitement via MapReduce dans un cluster Hadoop) est un système de traitement par lots, et Storm est un système …

12 bigdata efficiency apache-hadoop distributed

3

Instances vs cœurs lors de l'utilisation d'EC2

En travaillant sur ce que l'on pourrait souvent appeler des projets de "données moyennes", j'ai pu paralléliser mon code (principalement pour la modélisation et la prédiction en Python) sur un seul système à travers de 4 à 32 cœurs. Maintenant, je cherche à évoluer vers des clusters sur EC2 (probablement …

12 parallel clusters aws

2

Un réseau de neurones peut-il calculer

Dans l'esprit de la célèbre blague Tensorflow Fizz Buzz et problème XOr, j'ai commencé à penser, s'il était possible de concevoir un réseau de neurones qui implémente la fonction y= x2y=x2y = x^2 ? Étant donné une certaine représentation d'un nombre (par exemple, comme un vecteur sous forme binaire, de …

12 machine-learning neural-network

3

Existe-t-il une règle générale pour la conception de réseaux de neurones?

Je sais qu'une architecture de réseau neuronal est principalement basée sur le problème lui-même et les types d'entrée / sortie, mais quand même - il y a toujours un "carré" quand on commence à en construire un. Donc, ma question est - étant donné un ensemble de données d'entrée de …

12 neural-network

3

Dois-je utiliser le GPU ou le CPU pour l'inférence?

J'exécute un réseau neuronal d'apprentissage en profondeur qui a été formé par un GPU. Je veux maintenant déployer cela sur plusieurs hôtes pour l'inférence. La question est de savoir quelles sont les conditions pour décider si je dois utiliser des GPU ou des CPU pour l'inférence? Ajout de plus de …

12 deep-learning gpu