Questions marquées «sampling»

Création d'échantillons à partir d'une population bien spécifiée à l'aide d'une méthode probabiliste et / ou production de nombres aléatoires à partir d'une distribution spécifiée. Cette balise étant ambiguë, veuillez considérer [enquête-échantillonnage] pour les premiers et [monte-carlo] ou [simulation] pour les seconds. Pour toute question concernant la création d'échantillons aléatoires à partir de distributions connues, veuillez envisager d'utiliser la balise [random-generation].

2
Comment choisir la formation, la validation croisée et la taille des ensembles de tests pour les données de petite taille d'échantillon?
Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique? Je choisirais intuitivement Taille de l'ensemble d'entraînement: 50 Ensemble de validation croisée taille 25, et Taille du test: …

3
Comment la repondération des données sur la diversité de l'American Community Survey affecterait-elle ses marges d'erreur?
Contexte: Mon organisation compare actuellement ses statistiques sur la diversité de la main-d'œuvre (ex.% De personnes handicapées,% de femmes,% d'anciens combattants) à la disponibilité totale de main-d'œuvre pour ces groupes sur la base de l'American Community Survey (un projet d'arpentage du US Census Bureau). Il s'agit d'une référence inexacte, car …

1
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 




2
Comment échantillonner à partir d'une distribution discrète sur les entiers non négatifs?
J'ai la distribution discrète suivante, où α , βα,β\alpha,\beta sont des constantes connues: p ( x ; α , β) = Bêta ( α + 1 , β+ x )Bêta ( α , β)pour x = 0 , 1 , 2 , …p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } …

3
Randomisation d'un échantillon non aléatoire
Je suis toujours un peu surpris de voir des publicités psychologiques pour participer à des études expérimentales. Bien sûr, les personnes qui répondent à ces publicités ne sont pas échantillonnées au hasard et sont donc une population auto-sélectionnée. Parce que l'on sait que la randomisation résout le problème d'auto-sélection, je …


4
Variance des résistances en parallèle
Supposons que vous ayez un ensemble de résistances R, qui sont toutes distribuées avec la moyenne μ et la variance σ. Considérons une section d'un circuit avec la disposition suivante: (r) || (r + r) || (r + r + r). La résistance équivalente de chaque partie est r, 2r …

1
R régression linéaire variable catégorielle valeur «cachée»
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant, la …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Comment créer un ensemble d'échantillons représentatif à partir d'un grand ensemble de données global?
Quelles sont les techniques statistiques pour créer un ensemble d'échantillons représentatif de l'ensemble de la population (avec un niveau de confiance connu)? Aussi, Comment valider, si l'échantillon correspond à l'ensemble de données global? Est-ce possible, sans analyser l'ensemble de données entier (qui pourrait être des milliards d'enregistrements)?

1
méthode d'échantillonnage simple pour un estimateur de densité de noyau
J'ai développé un estimateur de densité de noyau simple en Java, basé sur quelques dizaines de points (peut-être jusqu'à une centaine) et une fonction de noyau gaussien. L'implémentation me donne à tout moment le PDF et le CDF de ma distribution de probabilité. Je voudrais maintenant implémenter une méthode d'échantillonnage …
10 sampling  pdf  kde 

1
Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Chance que l'échantillon de bootstrap soit exactement le même que l'échantillon d'origine
Je veux juste vérifier un raisonnement. Si mon échantillon d'origine est de taille et que je l'amorce, alors mon processus de réflexion est le suivant:nnn 1n1n\frac{1}{n} est la chance de toute observation tirée de l'échantillon d'origine. Pour nous assurer que le prochain tirage n'est pas l'observation précédemment échantillonnée, nous limitons …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.