Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

1
Des données déséquilibrées provoquent une mauvaise classification sur l'ensemble de données multiclasses
Je travaille sur la classification des textes où j'ai 39 catégories / classes et 8,5 millions d'enregistrements. (À l'avenir, les données et les catégories augmenteront). La structure ou le format de mes données est le suivant. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display …


2
Quel algorithme appliquer pour choisir le bon point
L'image ci-dessous montre 7 points autour de l'origine. L'un d'eux a été sélectionné par un humain sur la base des règles et de l'expérience et est coloré en rouge (celui dans le quadrant inférieur gauche). Nous avons maintenant plus de 1000 de ces ensembles de points et pour chaque ensemble, …


2
«Théorème de Deep Noether»: intégrer des contraintes de symétrie
Si j'ai un problème d'apprentissage qui devrait avoir une symétrie inhérente, existe-t-il un moyen de soumettre mon problème d'apprentissage à une contrainte de symétrie pour améliorer l'apprentissage? Par exemple, si je fais une reconnaissance d'image, je pourrais vouloir une symétrie de rotation 2D. Cela signifie que la version pivotée d'une …



4
Classer des séries chronologiques multivariées
J'ai un ensemble de données composé de séries chronologiques (8 points) avec environ 40 dimensions (donc chaque série temporelle est de 8 par 40). Le résultat correspondant (les résultats possibles pour les catégories) est soit 0 soit 1. Quelle serait la meilleure approche pour concevoir un classifieur pour des séries …

2
Est-il judicieux de former un CNN en tant qu'encodeur automatique?
Je travaille à l'analyse des données EEG, qui devront éventuellement être classées. Cependant, obtenir des étiquettes pour les enregistrements coûte quelque peu cher, ce qui m'a amené à envisager des approches non supervisées, afin de mieux utiliser nos quantités assez importantes de données non étiquetées. Cela conduit naturellement à envisager …

3
Pourquoi ne pas former le modèle final sur l'ensemble des données après avoir effectué les données de test de la base de réglage de l'hyperparamètre et les données de validation de la base de sélection du modèle?
Par données entières, je veux dire train + test + validation Une fois que j'ai corrigé mon hyperparamètre à l'aide des données de validation et choisi le modèle à l'aide des données de test, ne vaudra-t-il pas mieux avoir un modèle formé sur l'ensemble des données afin que les paramètres …

3
Pourquoi utiliser des NN convolutionnels pour une tâche d'inspection visuelle par rapport à la correspondance de modèle de CV classique?
J'ai eu une discussion intéressante sur la base d'un projet sur lequel nous travaillions: pourquoi utiliser un système d'inspection visuelle CNN sur un algorithme de correspondance de modèles? Contexte: j'avais montré une démonstration d'un simple système de vision CNN (webcam + ordinateur portable) qui détectait si un type particulier d'objet …



4
Interprétation de l'arbre de décision dans le contexte de l'importance des fonctionnalités
J'essaie de comprendre comment comprendre pleinement le processus de décision d'un modèle de classification d'arbre de décision construit avec sklearn. Les 2 principaux aspects que je regarde sont une représentation graphique de l'arbre et la liste des importances de fonctionnalités. Ce que je ne comprends pas, c'est comment l'importance des …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.