Questions marquées «bigdata»

Le Big Data est le terme désignant une collection d'ensembles de données si volumineux et complexes qu'il devient difficile de les traiter à l'aide d'outils de gestion de bases de données disponibles ou d'applications de traitement de données traditionnelles. Les défis incluent la capture, la conservation, le stockage, la recherche, le partage, le transfert, l'analyse et la visualisation.

3
Gérer un ensemble de fonctionnalités en constante augmentation
Je travaille sur un système de détection de fraude. Dans ce domaine, de nouvelles fraudes apparaissent régulièrement, de sorte que de nouvelles fonctionnalités doivent être ajoutées au modèle de manière continue. Je me demande quelle est la meilleure façon de gérer cela (du point de vue du processus de développement)? …



3

2
Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 


1
Différence entre interpoler () et fillna () chez les pandas
Depuis interpoler et fillna méthode fait le même travail de remplissage na valeurs. Quelle est la différence fondamentale entre les deux. Quelle est l'importance d'avoir ces deux méthodes différentes ?? Quelqu'un peut-il m'expliquer en termes simples. J'ai déjà visité la documentation officielle et je voulais connaître la différence



1
Erreur en cascade dans Apache Storm
En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le cluster Hadoop est utilisé pour traiter …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.