Statistiques et Big Data sampling

2

J'apprends le bootstrap comme moyen d'estimer la variance d'un échantillon statistique. J'ai un doute fondamental. Citant de http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : • Combien d'observations devons-nous rééchantillonner? Une bonne suggestion est la taille de l'échantillon d'origine. Comment rééchantillonner autant d'observations que dans l'échantillon d'origine? Si j'ai un échantillon de 100 et que j'essaie …

9 sampling bootstrap resampling

2

Prélèvement d'échantillons à partir d'une distribution normale multivariée soumise à des contraintes quadratiques

Je voudrais dessiner efficacement des échantillons partir de sous la contrainte que .x∈Rdx∈Rdx \in \mathbb{R}^dN(μ,Σ)N(μ,Σ)\mathcal{N}(\mu, \Sigma)||x||2=1||x||2=1||x||_2 = 1

9 distributions normal-distribution sampling multivariate-normal importance-sampling

2

L'échantillonnage basé sur la chaîne de Markov est-il le «meilleur» pour l'échantillonnage de Monte Carlo? Existe-t-il des régimes alternatifs?

Markov Chain Monte Carlo est une méthode basée sur les chaînes de Markov qui nous permet d'obtenir des échantillons (dans un cadre Monte Carlo) à partir de distributions non standard à partir desquelles nous ne pouvons pas prélever directement des échantillons. Ma question est de savoir pourquoi la chaîne de …

9 sampling mcmc monte-carlo markov-chain stochastic-approximation

2

Échantillonnage CDF inverse pour une distribution mixte

La version courte hors contexte Soit une variable aléatoire avec CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} Disons que je voulais simuler des …

9 r distributions sampling simulation copula

4

Comment échantillonner lorsque vous ne connaissez pas la distribution

Je suis assez nouveau dans les statistiques (une poignée de cours Uni de niveau débutant) et je me posais des questions sur l'échantillonnage à partir de distributions inconnues. Plus précisément, si vous n'avez aucune idée de la distribution sous-jacente, existe-t-il un moyen de "garantir" que vous obtenez un échantillon représentatif? …

9 distributions estimation sampling sample-size algorithms

4

(en interaction) MCMC pour multimodal postérieur

J'essaie d'échantillonner à partir d'un postérieur ayant de nombreux modes particulièrement éloignés les uns des autres en utilisant MCMC. Il semble que dans la plupart des cas, un seul de ces modes contient le 95% hpd que je recherche. J'ai essayé d'implémenter des solutions basées sur la simulation tempérée mais …

9 sampling mcmc inference convergence

1

Livres suggérés sur les statistiques spatiales

Quels sont les meilleurs livres pour étudier i) la variabilité des variables univariées et multivariées (réelles, données de comptage) à travers un domaine spatial. ii) échantillonnage d'une variable univariée ou multivariée en fonction de sa distribution à travers des emplacements spatiaux. (Échantillonnage spatial en bref)

9 sampling mathematical-statistics references spatial

1

Comment comparer les événements observés aux événements attendus?

Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

4

Peut-on laisser de côté les données de la recherche car elles ne sont pas significatives?

J'ai rencontré cette phrase en lisant un article sur sciencemag.org . Au final, les réponses de seulement 7600 chercheurs dans 12 pays ont été incluses car les données restantes n'étaient pas considérées comme statistiquement significatives. Est-ce une bonne façon de faire de la recherche? Oublier les résultats parce qu'ils n'étaient …

9 statistical-significance sampling outliers theory

3

Comment puis-je simuler des microdonnées de recensement pour de petites régions en utilisant un échantillon de microdonnées de 1% à grande échelle et des statistiques agrégées à petite échelle?

Je voudrais effectuer une analyse multivariée au niveau individuel à de petits niveaux d'agrégation géographique (districts de collecte du recensement australien). De toute évidence, le recensement n'est pas disponible à ces petits niveaux d'agrégation pour des raisons de confidentialité, donc j'examine d'autres alternatives. Presque toutes les variables d'intérêt sont catégoriques. …

9 distributions sampling simulation spatial census

3

Taux d'acceptation pour Metropolis-Hastings avec répartition uniforme des candidats

Lors de l'exécution de l'algorithme Metropolis-Hastings avec des distributions de candidats uniformes, quelle est la raison d'avoir des taux d'acceptation autour de 20%? Ma pensée est la suivante: une fois que les valeurs de paramètre vraies (ou presque vraies) sont découvertes, aucun nouvel ensemble de valeurs de paramètres candidats du …

9 bayesian estimation sampling mcmc

1

Qu'est-ce qu'un échantillonnage de pondération de propension / RIM?

J'ai rencontré la méthode d'échantillonnage appelée "Propensity Weighting Sampling / RIM", mais je n'ai pas une bonne idée de la nature de ces méthodes d'enquête. Quelles références dans la littérature couvrent ce sujet?

9 sampling weighted-sampling

3

Recommander des références sur la pondération des échantillons d'enquête

Visons pour certains au niveau de l'introduction, des articles et des manuels. Appliqué est plus utile, y compris le code R est génial. Merci!

9 sampling references survey-weights survey-sampling

1

Puis-je estimer la fréquence d'un événement sur la base d'échantillonnages aléatoires de son occurrence?

Quelques modifications apportées ... Cette question est juste pour le plaisir, donc si ce n'est pas amusant, n'hésitez pas à l'ignorer. Je reçois déjà beaucoup d'aide de ce site, donc je ne veux pas mordre la main qui me nourrit. C'est basé sur un exemple réel et c'est juste quelque …

9 probability estimation sampling

3

Comment rééchantillonner une série temporelle XTS dans R?

J'ai une XTSsérie chronologique irrégulièrement espacée (avec des POSIXctvaleurs comme type d'index). Comment puis-je créer une nouvelle série temporelle échantillonnée à un intervalle de 10 minutes, par exemple, mais avec chaque instant d'échantillonnage aligné sur une heure ronde (13:00:00, 13:10:00, 13:20:00, ...) . Si un moment de rééchantillonnage ne tombe …

9 r time-series sampling unevenly-spaced-time-series

Questions marquées «sampling»