Questions marquées «stratification»

Une technique d'échantillonnage dans laquelle la population d'intérêt est divisée en sous-ensembles («strates») en fonction de caractéristiques connues dans toutes les unités avant l'échantillonnage.

3
Comprendre la validation croisée stratifiée
Quelle est la différence entre la validation croisée stratifiée et la validation croisée ? Wikipedia dit: Dans la validation croisée des plis en k , les plis sont sélectionnés de sorte que la valeur de réponse moyenne soit approximativement égale dans tous les plis. Dans le cas d'une classification dichotomique, …

2
Pourquoi utiliser la validation croisée stratifiée? Pourquoi cela n'endommage-t-il pas les avantages liés à la variance?
On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli …

1
Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification
Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

1
L'ajustement du modèle de Cox avec des strates et l'interaction strate-covariable diffère-t-il de l'ajustement de deux modèles de Cox?
Dans Regression Modeling Strategies de Harrell (deuxième édition), il y a une section (S. 20.1.7) traitant des modèles de Cox, y compris une interaction entre une covariable dont nous voulons également estimer l'effet principal sur la survie (âge dans l'exemple ci-dessous) et un covariable dont nous ne voulons pas estimer …



2
Échantillonnage avec remplacement dans R randomForest
L'implémentation randomForest ne permet pas l'échantillonnage au-delà du nombre d'observations, même lors d'un échantillonnage avec remplacement. Pourquoi est-ce? Fonctionne bien: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Ce que je veux faire: rf <- randomForest(Species ~ ., iris, sampsize=c(51, …


1
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Supprimer les doublons de l'ensemble d'entraînement pour la classification
Disons que j'ai un tas de lignes pour un problème de classification: X1,...XN,YX1,...XN,YX_1, ... X_N, Y Où sont les entités / prédicteurs et est la classe à laquelle la combinaison d' entités de la ligne appartient.X1,...,XNX1,...,XNX_1, ..., X_NYYY De nombreuses combinaisons de fonctionnalités et leurs classes sont répétées dans l'ensemble …

3
Trouvez la distribution et passez à la distribution normale
J'ai des données qui décrivent la fréquence à laquelle un événement se produit pendant une heure ("nombre par heure", nph) et la durée des événements ("durée en secondes par heure", dph). Ce sont les données d'origine: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.