Questions marquées «multivariate-analysis»

Analyses où il y a plus d'une variable analysée ensemble à la fois, et ces variables sont soit dépendantes (réponse) soit les seules dans l'analyse. Cela peut être contrasté avec une analyse "multiple" ou "multivariable", qui implique plus d'une variable prédictive (indépendante).

5
Quelles sont les compétences requises pour effectuer des analyses statistiques à grande échelle?
De nombreux emplois statistiques demandent une expérience avec des données à grande échelle. Quelles sont les compétences statistiques et informatiques nécessaires pour travailler avec de grands ensembles de données? Par exemple, qu’en est-il de la construction de modèles de régression à partir d’un ensemble de données contenant 10 millions d’échantillons?


3
Est-il possible d'avoir une paire de variables aléatoires gaussiennes pour lesquelles la distribution conjointe n'est pas gaussienne?
Quelqu'un m'a posé cette question lors d'un entretien d'embauche et j'ai répondu que leur distribution commune est toujours gaussienne. Je pensais que je pouvais toujours écrire une gaussienne à deux variables avec leurs moyennes, leur variance et leurs covariances. Je me demande s’il peut exister un cas pour lequel la …

3
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


2
Quelle est la relation entre l'analyse en composantes indépendantes et l'analyse factorielle?
Je suis novice en Analyse de Composants Indépendants (ICA) et n’ai qu’une compréhension rudimentaire de la méthode. Il me semble que l’ACI est semblable à l’analyse factorielle (AF) à une exception près: l’ACI suppose que les variables aléatoires observées sont une combinaison linéaire de composants / facteurs indépendants non gaussiens, …

5
Est-ce une bonne idée d’ajuster les valeurs p dans une régression multiple pour des comparaisons multiples?
Supposons que vous êtes un chercheur en sciences sociales / économétrique qui essaie de trouver des prédicteurs pertinents de la demande d'un service. Vous avez 2 variables de résultat / variables dépendantes décrivant la demande (en utilisant le service oui / non et le nombre d'occasions). Vous avez 10 variables …

3
Quelle est l'intuition derrière les distributions gaussiennes conditionnelles?
Supposons que X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Alors la distribution conditionnelle de X1X1X_1 étant donné que X2=x2X2=x2X_2 = x_2 est multivariée, normalement distribuée, avec la moyenne: E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) et de variance: Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Il est logique que la …

3
Interprétation du prédicteur et / ou de la réponse transformé par log
Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal. Considérons le cas de log(DV) = Intercept + B1*IV + Error Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
En quoi les scores de propension sont-ils différents de l’addition de covariables dans une régression et quand sont-ils préférés à cette dernière?
J'admets que je suis relativement nouveau dans les scores de propension et l'analyse causale. Une chose qui ne me semble pas évident en tant que nouveau venu est de savoir en quoi l’équilibrage à l’aide des scores de propension est mathématiquement différent de ce qui se produit lorsque nous ajoutons …

1
PCA et analyse de la correspondance dans leur relation avec Biplot
Biplot est souvent utilisé pour afficher les résultats de l' analyse en composantes principales (et des techniques associées). Il s’agit d’un diagramme de dispersion double ou superposé montrant les charges et les scores des composants simultanément. Aujourd'hui, @amoeba m'a informé qu'il avait donné une réponse partant de mon commentaire pour …

3


5
Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique
Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.