Lorsque les algorithmes ML, par exemple Vowpal Wabbit ou certaines des machines de factorisation remportant des concours de taux de clics ( Kaggle ), mentionnent que les fonctionnalités sont «hachées», qu'est-ce que cela signifie réellement pour le modèle? Disons qu'il existe une variable qui représente l'ID d'une annonce Internet, qui …
Pour expérimenter, nous aimerions utiliser les Emoji intégrés dans de nombreux Tweets comme données de vérité / formation au sol pour une analyse quantitative de sénitment simple. Les tweets sont généralement trop peu structurés pour que la PNL fonctionne correctement. Quoi qu'il en soit, il y a 722 Emoji dans …
Je vais classer les documents texte non structurés, à savoir les sites Web de structure inconnue. Le nombre de classes auxquelles je classe est limité (à ce stade, je pense qu'il n'y en a pas plus de trois). Quelqu'un at-il une suggestion sur la façon dont je pourrais commencer? L'approche …
Je travaille sur une application qui nécessite de créer une très grande base de données de n-grammes qui existent dans un grand corpus de texte. J'ai besoin de trois types d'opérations efficaces: recherche et insertion indexées par le n-gramme lui-même, et interrogation pour tous les n-grammes qui contiennent un sous-n-gramme. …
Je travaille actuellement avec un grand ensemble de données sur les réclamations d'assurance maladie qui incluent certaines réclamations de laboratoire et de pharmacie. Cependant, les informations les plus cohérentes dans l'ensemble de données sont constituées des codes de diagnostic (ICD-9CM) et de procédure (CPT, HCSPCS, ICD-9CM). Mes objectifs sont de: …
J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné. Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, …
Je comprends que les méthodes de compression peuvent être divisées en deux ensembles principaux: global local Le premier ensemble fonctionne indépendamment des données en cours de traitement, c'est-à-dire qu'ils ne s'appuient sur aucune caractéristique des données et n'ont donc pas besoin d'effectuer de prétraitement sur aucune partie de l'ensemble de …
Il y a ce projet parallèle sur lequel je travaille où j'ai besoin de structurer une solution au problème suivant. J'ai deux groupes de personnes (clients). Le groupe a l' Aintention d'acheter et le groupe a l' Bintention de vendre un produit déterminé X. Le produit a une série d'attributs …
Il y a beaucoup de battage médiatique autour de Hadoop et de son écosystème. Cependant, dans la pratique, lorsque de nombreux ensembles de données se situent dans la plage de téraoctets, n'est-il pas plus raisonnable d'utiliser Amazon RedShift pour interroger des ensembles de données volumineux, plutôt que de consacrer du …
Fermé . Cette question est basée sur l'opinion . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin d'y répondre avec des faits et des citations en modifiant ce message . Fermé il y a 5 ans . Étant nouveau dans l'apprentissage automatique …
Quelqu'un peut-il bien vouloir me parler des compromis impliqués lors du choix entre Storm et MapReduce dans Hadoop Cluster pour le traitement des données? Bien sûr, en dehors de l'évidence, Hadoop (traitement via MapReduce dans un cluster Hadoop) est un système de traitement par lots, et Storm est un système …
En travaillant sur ce que l'on pourrait souvent appeler des projets de "données moyennes", j'ai pu paralléliser mon code (principalement pour la modélisation et la prédiction en Python) sur un seul système à travers de 4 à 32 cœurs. Maintenant, je cherche à évoluer vers des clusters sur EC2 (probablement …
Dans l'esprit de la célèbre blague Tensorflow Fizz Buzz et problème XOr, j'ai commencé à penser, s'il était possible de concevoir un réseau de neurones qui implémente la fonction y= x2y=x2y = x^2 ? Étant donné une certaine représentation d'un nombre (par exemple, comme un vecteur sous forme binaire, de …
Je sais qu'une architecture de réseau neuronal est principalement basée sur le problème lui-même et les types d'entrée / sortie, mais quand même - il y a toujours un "carré" quand on commence à en construire un. Donc, ma question est - étant donné un ensemble de données d'entrée de …
J'exécute un réseau neuronal d'apprentissage en profondeur qui a été formé par un GPU. Je veux maintenant déployer cela sur plusieurs hôtes pour l'inférence. La question est de savoir quelles sont les conditions pour décider si je dois utiliser des GPU ou des CPU pour l'inférence? Ajout de plus de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.