Statistiques et Big Data r

4

Temps de calcul aléatoire de la forêt en R

J'utilise le package party en R avec 10 000 lignes et 34 fonctionnalités, et certaines fonctionnalités factorielles comportent plus de 300 niveaux. Le temps de calcul est trop long. (Cela a pris 3 heures jusqu'à présent et ce n'est pas fini.) Je veux savoir quels éléments ont un effet important …

49 r random-forest

5

Quelle est la différence entre NaN et NA?

Je voudrais savoir pourquoi certaines langues comme R ont NA et NaN. Quelles sont les différences ou sont-elles également identiques? Est-il vraiment nécessaire d'avoir NA?

48 r

5

R - QQPlot: comment voir si les données sont normalement distribuées

Je l'ai tracé après avoir fait un test de normalité Shapiro-Wilk. Le test a montré qu'il est probable que la population est normalement répartie. Cependant, comment voir ce "comportement" sur cette intrigue? MISE À JOUR Un histogramme simple des données: MISE À JOUR Le test Shapiro-Wilk dit:

48 r data-visualization normal-distribution histogram qq-plot

1

Comment appliquer la normalisation / normalisation à la formation et aux tests si l'objectif est la prédiction?

Est-ce que je transforme toutes mes données ou mes plis (si CV est appliqué) en même temps? par exemple (allData - mean(allData)) / sd(allData) Est-ce que je transforme les trains et les tests séparément? par exemple (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Ou dois-je transformer la …

47 r cross-validation data-transformation normalization standardization

7

Par où commencer avec les statistiques pour un développeur expérimenté

Au cours du premier semestre de 2015, j'ai suivi le cours coursera de Machine Learning (par Andrew Ng, cours GREAT). Et appris les bases de l'apprentissage automatique (régression linéaire, régression logistique, SVM, réseaux neuronaux ...) De plus, je suis développeur depuis 10 ans, donc apprendre un nouveau langage de programmation …

47 r regression machine-learning references

4

Comment faire la sélection du sous-ensemble de régression logistique?

Je monte une famille de binômes dans R, et j'ai toute une troupe de variables explicatives, et j'ai besoin de trouver le meilleur (R au carré comme mesure, ça va). À part écrire un script pour parcourir différentes combinaisons aléatoires de variables explicatives et ensuite enregistrer qui donne les meilleurs …

47 r logistic

5

Premier code de paquetage R à étudier en vue de la rédaction de son propre paquetage

Je prévois de commencer à écrire des packages R. J'ai pensé qu'il serait bon d'étudier le code source des paquets existants pour apprendre les conventions de la construction de paquets. Mes critères pour les bons forfaits à étudier: Idées statistiques / techniques simples : il s’agit d’apprendre les mécanismes de …

47 r

3

Est-il possible de regrouper des séries chronologiques en fonction de la forme de la courbe?

J'ai des données sur les ventes pour une série de points de vente et je souhaite les classer en fonction de la forme de leurs courbes au fil du temps. Les données ressemblent à peu près à ceci (mais ne sont évidemment pas aléatoires et ont des données manquantes): n.quarters …

47 r time-series clustering

5

Comment calculer le pseudo-

L' écriture de Christopher Manning sur la régression logistique dans R montre une régression logistique dans R comme suit: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Quelques sorties: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q …

46 r logistic log-likelihood

3

Interprétation du prédicteur et / ou de la réponse transformé par log

Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal. Considérons le cas de log(DV) = Intercept + B1*IV + Error Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

Comment simuler des données artificielles pour une régression logistique?

Je sais que quelque chose me manque dans ma compréhension de la régression logistique et apprécierais vraiment toute aide. Autant que je sache, la régression logistique suppose que la probabilité d'un résultat '1' compte tenu des entrées est une combinaison linéaire des entrées, passant par une fonction de logistique inverse. …

45 r regression logistic generalized-linear-model simulation

5

Utiliser R en ligne - sans l'installer [fermé]

Est-il possible d'utiliser R dans une interface Web sans avoir à l'installer? Je n’ai qu’un seul petit script que j’aime exécuter, mais je veux seulement essayer, sans une longue procédure d’installation. Merci.

45 r

3

Qu'est-ce que la déviance? (spécifiquement dans CART / rpart)

Qu'est-ce que la "déviance", comment est-elle calculée et quelles sont ses utilisations dans différents domaines de la statistique? En particulier, je suis personnellement intéressé par ses utilisations dans CART (et sa mise en œuvre dans rpart in R). Je pose cette question car l' article du wiki semble quelque peu …

45 r cart rpart deviance

3

Existe-t-il une différence entre lm et glm pour la famille gaussienne de glm?

Plus précisément, je veux savoir s’il existe une différence entre lm(y ~ x1 + x2)et glm(y ~ x1 + x2, family=gaussian). Je pense que ce cas particulier de glm est égal à lm. Ai-je tort?

45 r normal-distribution generalized-linear-model lm

1

Comment interpréter une ANOVA et une MANOVA de types I, II et III?

Ma question principale est de savoir comment interpréter la sortie (coefficients, F, P) lors d’une analyse de variance de type I (séquentielle)? Mon problème de recherche spécifique est un peu plus complexe, je vais donc décomposer mon exemple en plusieurs parties. Premièrement, si je suis intéressé par l’effet de la …

45 r hypothesis-testing anova manova sums-of-squares

Questions marquées «r»