Science des données r

15

Python vs R pour l'apprentissage automatique

Je commence tout juste à développer une application d' apprentissage automatique à des fins académiques. J'utilise actuellement R et m'entraîne moi-même. Cependant, dans de nombreux endroits, j'ai vu des personnes utiliser Python . Qu'est-ce que les gens utilisent dans les universités et l'industrie et quelle est la recommandation?

101 machine-learning r python

1

Comment obtenir une corrélation entre deux variables catégorielles et une variable catégorielle et une variable continue?

Je construis un modèle de régression et j'ai besoin de calculer ce qui suit pour vérifier les corrélations Corrélation entre 2 variables qualitatives multiniveaux Corrélation entre une variable catégorielle à plusieurs niveaux et une variable continue VIF (facteur d'inflation de la variance) pour une variable catégorielle à plusieurs niveaux Je …

63 r statistics correlation

9

Le langage R convient-il au Big Data?

R possède de nombreuses bibliothèques destinées à l’analyse de données (par exemple, JAGS, BUGS, ARULES, etc.), et est mentionné dans des manuels populaires tels que: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning avec R". J'ai observé une directive de 5 To pour qu'un jeu de données soit considéré comme …

48 bigdata r

9

Alternatives IDE pour la programmation R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

J'utilise RStudio pour la programmation R. Je me souviens d’ID-s solides d’autres piles de technologies, comme Visual Studio ou Eclipse. J'ai deux questions: Quels autres IDE-s que RStudio sont utilisés (pensez à fournir une brève description à ce sujet). Est-ce que certains d'entre eux ont des avantages notables par rapport …

46 r tools rstudio programming

7

Processus organisés pour nettoyer les données

Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …

34 r data-cleaning

1

Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Hypertuning des paramètres XGBoost

XGBoost a fait un excellent travail en ce qui concerne les variables dépendantes catégoriques et continues. Mais, comment puis-je sélectionner les paramètres optimisés pour un problème XGBoost? Voici comment j'ai appliqué les paramètres d'un problème Kaggle récent: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # …

27 r python xgboost

5

Image VM pour les projets de science des données

Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait. Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une utilisation …

24 python r tools

9

Toute console R en ligne?

Je recherche une console en ligne pour la langue R. Comme j'écris le code et le serveur devrait s'exécuter et me fournir la sortie. Similaire au site Web Datacamp.

24 r statistics

3

existe-t-il un outil de rangement des données pour python / pandas similaire à l'outil tidyr R?

Je travaille sur un défi Kaggle où certaines variables sont représentées par des lignes au lieu de colonnes (Telstra Network Disruption). Je suis actuellement à la recherche de l'équivalent de recueillir (), séparé () et réparti (), qui peut être trouvé dans l'outil R tidyr.

18 r python dataset data-cleaning pandas

6

Qu'utilisez-vous pour générer un tableau de bord dans R?

Je dois générer des rapports de tableau de bord analytiques Web périodiques (quotidiens, mensuels). Ils seront statiques et ne nécessiteront pas d'interaction, alors imaginez un fichier PDF comme sortie cible. Les rapports mélangeront des tableaux et des graphiques (principalement des graphiques sparkline et puces créés avec ggplot2). Pensez aux tableaux …

17 r visualization

2

Recommander des films avec des fonctionnalités supplémentaires à l'aide du filtrage collaboratif

J'essaie de construire un système de recommandation en utilisant le filtrage collaboratif. J'ai les [user, movie, rating]informations habituelles . Je voudrais incorporer une fonctionnalité supplémentaire comme la «langue» ou la «durée du film». Je ne sais pas quelles techniques je pourrais utiliser pour un tel problème. Veuillez suggérer des références …

16 python r recommender-system

5

agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Comment prédire les probabilités dans xgboost?

La fonction de prédiction ci-dessous donne également des valeurs -ve, il ne peut donc pas s'agir de probabilités. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) J'ai google et essayé pred_s <- predict(bst, x_mat_s2,type="response") …

16 machine-learning r predictive-modeling decision-trees

4

Les pandas sont-ils désormais plus rapides que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Les benchmarks data.table n'ont pas été mis à jour depuis 2014. J'ai entendu quelque part qui Pandasest maintenant plus rapide que data.table. Est-ce vrai? Quelqu'un a-t-il fait des repères? Je n'ai jamais utilisé Python auparavant mais envisagerais de changer si je pandaspeux battre data.table?

16 python r pandas data data.table

Questions marquées «r»