Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées


5
agrandir la carte thermique de Seaborn
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


3
Comment prédire les probabilités dans xgboost?
La fonction de prédiction ci-dessous donne également des valeurs -ve, il ne peut donc pas s'agir de probabilités. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) J'ai google et essayé pred_s <- predict(bst, x_mat_s2,type="response") …



1
Quel est l'avantage de conserver une taille de lot de 2?
Lors de la formation de modèles à l'apprentissage automatique, pourquoi est-il parfois avantageux de maintenir la taille du lot à une puissance de 2? J'ai pensé qu'il serait préférable d'utiliser une taille qui correspond le mieux à votre mémoire / RAM GPU. Cette réponse affirme que pour certains packages, une …

5
Sélection des fonctionnalités vs extraction des fonctionnalités. Lequel utiliser quand?
L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison. Quelle technique serait préférée à l'autre et quand? Je pensais, puisque la sélection des fonctionnalités ne modifie pas les données d'origine et ses propriétés, je suppose que …

4
Les pandas sont-ils désormais plus rapides que data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Les benchmarks data.table n'ont pas été mis à jour depuis 2014. J'ai entendu quelque part qui Pandasest maintenant plus rapide que data.table. Est-ce vrai? Quelqu'un a-t-il fait des repères? Je n'ai jamais utilisé Python auparavant mais envisagerais de changer si je pandaspeux battre data.table?
16 python  r  pandas  data  data.table 

1
Méthode de notation OOB RandomForestClassifier
L'implémentation de forêt aléatoire dans scikit-learn utilise-t-elle la précision moyenne comme méthode de notation pour estimer l'erreur de généralisation avec des échantillons hors sac? Ceci n'est pas mentionné dans la documentation, mais la méthode score () rapporte la précision moyenne. J'ai un ensemble de données très déséquilibré et j'utilise l'AUC …

3
Comment combiner des fonctionnalités d'entrée catégorielles et continues pour la formation d'un réseau de neurones
Supposons que nous ayons deux types de fonctions d'entrée, catégoriques et continues. Les données catégorielles peuvent être représentées sous la forme d'un code unique A, tandis que les données continues ne sont qu'un vecteur B dans un espace à N dimensions. Il semble que le simple fait d'utiliser concat (A, …


8
Comment puis-je apprendre les réseaux neuronaux?
Je suis un étudiant de premier cycle (mentionnant ceci afin que vous puissiez pardonner ma méconnaissance) qui fait actuellement des recherches en utilisant des réseaux de neurones. J'ai codé un réseau neuronal à trois nœuds (qui fonctionne) sur la base des conseils de mon professeur. Cependant, je voudrais poursuivre une …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.