Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées

3


2
Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 



3
NASDAQ Trade Data
J'essaie de trouver des données boursières pour m'entraîner, existe-t-il une bonne ressource pour cela? J'ai trouvé ceci: ftp://emi.nasdaq.com/ITCH/ mais il n'a que l'année en cours. J'ai déjà un moyen d'analyser le protocole, mais j'aimerais avoir plus de données avec lesquelles comparer. Il ne doit pas nécessairement être dans le même …

4
Données multi-classes asymétriques
J'ai un ensemble de données qui contient environ 100 000 échantillons de 50 classes. J'utilise SVM avec un noyau RBF pour former et prédire de nouvelles données. Le problème est que l'ensemble de données est biaisé vers différentes classes. Par exemple, Classe 1 - 30 (~ 3% chacune), Classe 31 …







4
SGDClassifier: apprentissage en ligne / partial_fit avec une étiquette inconnue auparavant
Mon ensemble de formation contient environ 50k entrées avec lesquelles je fais un apprentissage initial. Sur une base hebdomadaire, environ 5 000 entrées sont ajoutées; mais la même quantité "disparaît" (car ce sont les données utilisateur qui doivent être supprimées après un certain temps). Par conséquent, j'utilise l'apprentissage en ligne …

2
quelles techniques machine / deep learning / nlp sont utilisées pour classer un mot donné comme nom, numéro de mobile, adresse, email, état, comté, ville, etc.
J'essaie de générer un modèle intelligent qui peut analyser un ensemble de mots ou de chaînes et les classer en tant que noms, numéros mobiles, adresses, villes, États, pays et autres entités à l'aide de l'apprentissage automatique ou de l'apprentissage profond. J'avais cherché des approches, mais malheureusement je n'ai trouvé …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.