Science des données bigdata

3

Gérer un ensemble de fonctionnalités en constante augmentation

Je travaille sur un système de détection de fraude. Dans ce domaine, de nouvelles fraudes apparaissent régulièrement, de sorte que de nouvelles fonctionnalités doivent être ajoutées au modèle de manière continue. Je me demande quelle est la meilleure façon de gérer cela (du point de vue du processus de développement)? …

10 machine-learning bigdata

4

Pourquoi est-il difficile de garantir l'efficacité lors de l'utilisation des bibliothèques?

Tout petit traitement de base de données peut être facilement abordé par des scripts Python / Perl / ..., qui utilisent des bibliothèques et / ou même des utilitaires du langage lui-même. Cependant, en ce qui concerne les performances, les gens ont tendance à tendre la main pour les langages …

10 bigdata efficiency performance

1

Évitez de recharger DataFrame entre différents noyaux python

Existe-t-il un moyen de conserver une variable (grande table / bloc de données) en mémoire et de la partager entre plusieurs blocs-notes ipython? Je chercherais quelque chose, qui est conceptuellement similaire aux variables persistantes de MATLAB. Là, il est possible d'appeler une fonction / bibliothèque personnalisée à partir de plusieurs …

10 python bigdata matlab jupyter ipython

3

Comment faire un produit intérieur par lots dans Tensorflow?

J'ai deux tenseur a:[batch_size, dim] b:[batch_size, dim]. Je veux faire un produit intérieur pour chaque paire du lot, en générant c:[batch_size, 1], où c[i,0]=a[i,:].T*b[i,:]. Comment?

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Reconnaissance de l'activité humaine à l'aide d'un problème de jeu de données de smartphone

Je suis nouveau dans cette communauté et j'espère que ma question s'intégrera bien ici. Dans le cadre de mon cours d'analyse de données de premier cycle, j'ai choisi de faire le projet sur la reconnaissance de l'activité humaine à l'aide d'ensembles de données de smartphone. En ce qui me concerne, …

9 bigdata machine-learning databases clustering data-mining

1

Différence entre interpoler () et fillna () chez les pandas

Depuis interpoler et fillna méthode fait le même travail de remplissage na valeurs. Quelle est la différence fondamentale entre les deux. Quelle est l'importance d'avoir ces deux méthodes différentes ?? Quelqu'un peut-il m'expliquer en termes simples. J'ai déjà visité la documentation officielle et je voulais connaître la différence

9 python bigdata pandas jupyter

2

Meilleures pratiques d'apprentissage automatique pour les Big Dataset

Je suis sur le point d'obtenir mon diplôme de Master et j'ai appris l'apprentissage automatique ainsi que des projets de recherche avec lui. Je m'interroge sur les meilleures pratiques de l'industrie lors de l'exécution de tâches d'apprentissage automatique avec des Big Datasets (comme 100 Go ou To). Appréciez si vos …

9 machine-learning predictive-modeling bigdata

1

Signification originale de «Intelligence» dans «Business Intelligence»

Que signifie à l'origine le terme "Intelligence" dans "Business Intelligence" ? Cela signifie-t-il qu'il est utilisé dans " Intelligence artificielle " ou dans " Intelligence Agency " ? En d'autres termes, la « Business Intelligence » signifie-t-elle: «Agir intelligemment et intelligemment en entreprise» ou «Recueillir des données et des informations …

8 bigdata definitions terminology history

1

Erreur en cascade dans Apache Storm

En parcourant la présentation et le matériel de Summingbird par Twitter, l'une des raisons mentionnées pour utiliser les clusters Storm et Hadoop ensemble dans Summingbird est que le traitement via Storm entraîne une cascade d'erreurs. Afin d'éviter cette cascade d'erreurs et leur accumulation, le cluster Hadoop est utilisé pour traiter …

8 bigdata apache-hadoop

Questions marquées «bigdata»