Questions marquées «resampling»

Le rééchantillonnage consiste à prélever un échantillon d'un échantillon. Les utilisations courantes sont le jackknifing (prendre un sous-échantillon, par exemple toutes les valeurs sauf 1) et le bootstrap (échantillonnage avec remplacement). Ces techniques peuvent fournir une estimation robuste d'une distribution d'échantillonnage lorsqu'il serait difficile ou impossible d'en déduire analytiquement.



1
Méthodologie Bootstrap. Pourquoi rééchantillonner «avec remplacement» au lieu d'un sous-échantillonnage aléatoire?
La méthode bootstrap a connu une grande diffusion ces dernières années, je l'utilise également beaucoup, notamment parce que le raisonnement derrière est assez intuitif. Mais c'est une chose que je ne comprends pas. Pourquoi Efron a choisi d'effectuer un rééchantillonnage avec remplacement au lieu de simplement sous-échantillonner en incluant ou …


4
Pourquoi les tests d'hypothèses sur les jeux de données rééchantillonnés rejettent-ils trop souvent le null?
tl; dr: En commençant par un ensemble de données généré sous la valeur nulle, j'ai rééchantillonné les cas avec remplacement et effectué un test d'hypothèse sur chaque ensemble de données rééchantillonné. Ces tests d'hypothèse rejettent le nul plus de 5% du temps. Dans la simulation ci-dessous, très simple, je génère …


2
Bon texte pour le rééchantillonnage?
Le groupe peut-il recommander un bon texte / ressource d'introduction aux techniques de rééchantillonnage appliquées? Plus précisément, je m'intéresse aux alternatives aux tests paramétriques classiques (par exemple les tests t, ANOVA, ANCOVA) pour comparer des groupes lorsque des hypothèses telles que la normalité sont clairement violées. Un exemple de type …

1
Quel modèle d'apprentissage en profondeur peut classer des catégories qui ne s'excluent pas mutuellement
Exemples: J'ai une phrase dans la description de poste: "Java senior engineer in UK". Je veux utiliser un modèle d'apprentissage profond pour le prédire en 2 catégories: English et IT jobs. Si j'utilise un modèle de classification traditionnel, il ne peut prédire qu'une seule étiquette avec softmaxfonction à la dernière …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Taille des échantillons bootstrap
J'apprends le bootstrap comme moyen d'estimer la variance d'un échantillon statistique. J'ai un doute fondamental. Citant de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : • Combien d'observations devons-nous rééchantillonner? Une bonne suggestion est la taille de l'échantillon d'origine. Comment rééchantillonner autant d'observations que dans l'échantillon d'origine? Si j'ai un échantillon de 100 et que j'essaie …

1
Suréchantillonnage avec des variables catégorielles
Je voudrais effectuer une combinaison de suréchantillonnage et de sous-échantillonnage afin d'équilibrer mon ensemble de données avec environ 4000 clients divisés en deux groupes, où l'un des groupes a une proportion d'environ 15%. J'ai examiné SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) et ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), mais les deux créent de …

1
Le rééchantillonnage bootstrap peut-il être utilisé pour calculer un intervalle de confiance pour la variance d'un ensemble de données?
Je sais que si vous rééchantillonnez à plusieurs reprises à partir d'un ensemble de données et calculez la moyenne à chaque fois, ces moyennes suivront une distribution normale (par le CLT). Ainsi, vous pouvez calculer un intervalle de confiance sur la moyenne de l'ensemble de données sans faire d'hypothèses sur …


1
Nombre de permutations requis pour une valeur de p basée sur la permutation
Si j'ai besoin de calculer une valeur basée sur la permutation avec un niveau de signification , de combien de permutations ai-je besoin?pppαα\alpha De l'article "Tests de permutation pour étudier les performances du classificateur" , page 5: En pratique, la borne supérieure est généralement utilisée pour déterminer le nombre d'échantillons …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.