Questions marquées «r»

R est un langage de programmation et un environnement logiciel libres et open source pour le calcul statistique, la bioinformatique et les graphiques.

15
Python vs R pour l'apprentissage automatique
Je commence tout juste à développer une application d' apprentissage automatique à des fins académiques. J'utilise actuellement R et m'entraîne moi-même. Cependant, dans de nombreux endroits, j'ai vu des personnes utiliser Python . Qu'est-ce que les gens utilisent dans les universités et l'industrie et quelle est la recommandation?

1
Comment obtenir une corrélation entre deux variables catégorielles et une variable catégorielle et une variable continue?
Je construis un modèle de régression et j'ai besoin de calculer ce qui suit pour vérifier les corrélations Corrélation entre 2 variables qualitatives multiniveaux Corrélation entre une variable catégorielle à plusieurs niveaux et une variable continue VIF (facteur d'inflation de la variance) pour une variable catégorielle à plusieurs niveaux Je …

9
Le langage R convient-il au Big Data?
R possède de nombreuses bibliothèques destinées à l’analyse de données (par exemple, JAGS, BUGS, ARULES, etc.), et est mentionné dans des manuels populaires tels que: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning avec R". J'ai observé une directive de 5 To pour qu'un jeu de données soit considéré comme …
48 bigdata  r 


7
Processus organisés pour nettoyer les données
Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …
34 r  data-cleaning 

1

3
Hypertuning des paramètres XGBoost
XGBoost a fait un excellent travail en ce qui concerne les variables dépendantes catégoriques et continues. Mais, comment puis-je sélectionner les paramètres optimisés pour un problème XGBoost? Voici comment j'ai appliqué les paramètres d'un problème Kaggle récent: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # …
27 r  python  xgboost 

5
Image VM pour les projets de science des données
Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait. Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une utilisation …
24 python  r  tools 

9
Toute console R en ligne?
Je recherche une console en ligne pour la langue R. Comme j'écris le code et le serveur devrait s'exécuter et me fournir la sortie. Similaire au site Web Datacamp.
24 r  statistics 


6
Qu'utilisez-vous pour générer un tableau de bord dans R?
Je dois générer des rapports de tableau de bord analytiques Web périodiques (quotidiens, mensuels). Ils seront statiques et ne nécessiteront pas d'interaction, alors imaginez un fichier PDF comme sortie cible. Les rapports mélangeront des tableaux et des graphiques (principalement des graphiques sparkline et puces créés avec ggplot2). Pensez aux tableaux …
17 r  visualization 

2
Recommander des films avec des fonctionnalités supplémentaires à l'aide du filtrage collaboratif
J'essaie de construire un système de recommandation en utilisant le filtrage collaboratif. J'ai les [user, movie, rating]informations habituelles . Je voudrais incorporer une fonctionnalité supplémentaire comme la «langue» ou la «durée du film». Je ne sais pas quelles techniques je pourrais utiliser pour un tel problème. Veuillez suggérer des références …

5
agrandir la carte thermique de Seaborn
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Comment prédire les probabilités dans xgboost?
La fonction de prédiction ci-dessous donne également des valeurs -ve, il ne peut donc pas s'agir de probabilités. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) J'ai google et essayé pred_s <- predict(bst, x_mat_s2,type="response") …

4
Les pandas sont-ils désormais plus rapides que data.table?
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Les benchmarks data.table n'ont pas été mis à jour depuis 2014. J'ai entendu quelque part qui Pandasest maintenant plus rapide que data.table. Est-ce vrai? Quelqu'un a-t-il fait des repères? Je n'ai jamais utilisé Python auparavant mais envisagerais de changer si je pandaspeux battre data.table?
16 python  r  pandas  data  data.table 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.