Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

1
Hashing Trick - ce qui se passe réellement
Lorsque les algorithmes ML, par exemple Vowpal Wabbit ou certaines des machines de factorisation remportant des concours de taux de clics ( Kaggle ), mentionnent que les fonctionnalités sont «hachées», qu'est-ce que cela signifie réellement pour le modèle? Disons qu'il existe une variable qui représente l'ID d'une annonce Internet, qui …

2
Données de sentiment pour Emoji
Pour expérimenter, nous aimerions utiliser les Emoji intégrés dans de nombreux Tweets comme données de vérité / formation au sol pour une analyse quantitative de sénitment simple. Les tweets sont généralement trop peu structurés pour que la PNL fonctionne correctement. Quoi qu'il en soit, il y a 722 Emoji dans …



3
Prédire la prochaine condition médicale à partir des conditions passées dans les données sur les réclamations
Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM). Mes objectifs sont de: …

3
Mesure des performances de différents classificateurs avec différentes tailles d'échantillons
J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné. Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, …





2
Compromis entre Storm et Hadoop (MapReduce)
Quelqu'un peut-il bien vouloir me parler des compromis impliqués lors du choix entre Storm et MapReduce dans Hadoop Cluster pour le traitement des données? Bien sûr, en dehors de l'évidence, Hadoop (traitement via MapReduce dans un cluster Hadoop) est un système de traitement par lots, et Storm est un système …

3
Instances vs cœurs lors de l'utilisation d'EC2
En travaillant sur ce que l'on pourrait souvent appeler des projets de "données moyennes", j'ai pu paralléliser mon code (principalement pour la modélisation et la prédiction en Python) sur un seul système à travers de 4 à 32 cœurs. Maintenant, je cherche à évoluer vers des clusters sur EC2 (probablement …
12 parallel  clusters  aws 

2
Un réseau de neurones peut-il calculer
Dans l'esprit de la célèbre blague Tensorflow Fizz Buzz et problème XOr, j'ai commencé à penser, s'il était possible de concevoir un réseau de neurones qui implémente la fonction y= x2y=x2y = x^2 ? Étant donné une certaine représentation d'un nombre (par exemple, comme un vecteur sous forme binaire, de …


3
Dois-je utiliser le GPU ou le CPU pour l'inférence?
J'exécute un réseau neuronal d'apprentissage en profondeur qui a été formé par un GPU. Je veux maintenant déployer cela sur plusieurs hôtes pour l'inférence. La question est de savoir quelles sont les conditions pour décider si je dois utiliser des GPU ou des CPU pour l'inférence? Ajout de plus de …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.