Statistiques et Big Data stata

25

Python en tant qu'atelier de statistiques

Beaucoup de gens utilisent un outil principal comme Excel ou une autre feuille de calcul, SPSS, Stata ou R pour leurs besoins en statistiques. Ils peuvent se tourner vers un logiciel spécifique pour des besoins très spécifiques, mais beaucoup de choses peuvent être réalisées avec un simple tableur, un logiciel …

355 r spss stata python

3

Interprétation du prédicteur et / ou de la réponse transformé par log

Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal. Considérons le cas de log(DV) = Intercept + B1*IV + Error Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

Réplication de l'option «robuste» de Stata dans R

J'ai essayé de reproduire les résultats de l'option Stata robustdans R. J'ai utilisé la rlmcommande du package MASS ainsi que la commande lmrobdu package "robustbase". Dans les deux cas, les résultats sont assez différents de l’option "robuste" de Stata. Quelqu'un peut-il suggérer quelque chose dans ce contexte? Voici les résultats …

39 r stata robust robust-standard-error

4

Test exact de Fisher dans les tableaux de contingence supérieurs à 2x2

On m'a appris à appliquer uniquement le test exact de Fisher dans les tableaux de contingence qui étaient 2x2. Des questions: Fisher lui-même a-t-il jamais envisagé que ce test soit utilisé dans des tableaux de plus de 2x2 (je suis au courant de l'histoire de lui qui a conçu le …

29 spss stata contingency-tables fishers-exact

1

Les degrés de liberté peuvent-ils être un nombre non entier?

Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Pourquoi est-ce que j'obtiens une variance nulle d'un effet aléatoire dans mon modèle mixte, malgré certaines variations dans les données?

Nous avons exécuté une régression logistique à effets mixtes en utilisant la syntaxe suivante; # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) Le sujet et l'objet sont les effets aléatoires. Nous obtenons un résultat étrange qui …

22 r mixed-model stata glmm lme4-nlme

1

Quel est l'équivalent non paramétrique d'une ANOVA bidirectionnelle pouvant inclure des interactions?

Salut, j'essaie de trouver l'équivalent non paramétrique d'une ANOVA bidirectionnelle (conception 3x4) qui est capable d'inclure des interactions. D'après ma lecture de Zar 1984 "Analyse biostatistique", cela est possible en utilisant une méthode proposée par Scheirer, Ray et Hare (1976), cependant, selon d'autres articles en ligne, il a été déduit …

20 r anova nonparametric stata interaction

4

Quelles sont les valeurs correctes pour la précision et le rappel dans les cas de bord?

La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Quels diagnostics peuvent valider l'utilisation d'une famille particulière de GLM?

Cela semble si élémentaire, mais je suis toujours coincé à ce stade… La plupart des données que je traite ne sont pas normales et la plupart des analyses sont basées sur une structure GLM. Pour mon analyse actuelle, j'ai une variable de réponse qui est la "vitesse de marche" (mètres …

19 generalized-linear-model stata gamma-distribution

1

Erreur standard des effets aléatoires dans R (lme4) vs Stata (xtmixed)

Veuillez considérer ces données: dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

4

La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente

J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

2SLS mais Probit deuxième étage

J'essaie d'utiliser l'analyse des variables instrumentales pour inférer la causalité avec des données d'observation. J'ai rencontré une régression des moindres carrés en deux étapes (2SLS) qui est susceptible de résoudre le problème d'endogénéité dans mes recherches. Cependant, je voudrais que la première étape soit OLS et la deuxième étape soit …

15 stata probit instrumental-variables 2sls

5

Comment est-ce que je détruis les séries chronologiques?

Comment est-ce que je détruis les séries chronologiques? Est-il correct de prendre la première différence et d'exécuter un test de Dickey Fuller, et s'il est stationnaire, nous sommes bons? J'ai également trouvé en ligne que je peux nuire à la série chronologique en faisant cela dans Stata: reg lncredit time …

13 regression time-series stata stationarity

4

Correspondance du score de propension avec les données du panel

J'ai un ensemble de données longitudinales d'individus et certains d'entre eux ont été soumis à un traitement et d'autres non. Tous les individus sont inclus dans l'échantillon de la naissance jusqu'à l'âge de 18 ans et le traitement a lieu à un âge compris entre cette plage. L'âge du traitement …

13 stata panel-data propensity-scores

2

Comment interpréter un modèle probit dans Stata?

Je ne sais pas comment interpréter cette régression probit que j'ai exécutée sur Stata. Les données sont sur l'approbation du prêt et le blanc est une variable fictive qui = 1 si une personne était blanche et = 0 si la personne ne l'était pas. Toute aide sur la façon …

13 regression multiple-regression stata

Questions marquées «stata»