Statistiques et Big Data sample-size

4

Quelle doit être la taille d'un échantillon pour une technique et des paramètres d'estimation donnés?

Existe-t-il une règle empirique ou même un moyen quelconque de déterminer la taille d'un échantillon afin d'estimer un modèle avec un nombre donné de paramètres? Ainsi, par exemple, si je veux estimer une régression des moindres carrés avec 5 paramètres, quelle devrait être la taille de l'échantillon? Quelle est la …

12 sample-size estimation least-squares maximum-likelihood

1

Pourquoi un grand choix de K réduit-il mon score de validation croisée?

En jouant avec le Boston Housing Dataset et RandomForestRegressor(avec les paramètres par défaut) dans scikit-learn, j'ai remarqué quelque chose d'étrange: le score moyen de validation croisée a diminué lorsque j'ai augmenté le nombre de plis au-delà de 10. Ma stratégie de validation croisée était la suivante: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …

11 machine-learning cross-validation random-forest sample-size scikit-learn

1

Le bootstrapping est-il approprié pour ces données continues?

Je suis un débutant complet :) Je fais une étude avec un échantillon de 10 000 sur une population d'environ 745 000. Chaque échantillon représente un "pourcentage de similitude". La grande majorité des échantillons se situe autour de 97% -98% mais quelques-uns se situent entre 60% et 90%, c'est-à-dire que …

11 bootstrap sample-size resampling

4

Que signifie pour une étude être surchargée?

Que signifie pour une étude être surchargée? Mon impression est que cela signifie que la taille de vos échantillons est si grande que vous avez le pouvoir de détecter de minuscules tailles d'effet. Ces tailles d'effet sont peut-être si petites qu'elles sont plus susceptibles de résulter de légers biais dans …

11 statistical-significance sample-size effect-size power-analysis power

1

Taille d'échantillon requise pour déterminer laquelle parmi un ensemble de publicités a le taux de clics le plus élevé

Je suis concepteur de logiciels de métier et je travaille sur un projet pour un client, et je voudrais m'assurer que mon analyse est statistiquement solide. Considérez ce qui suit: Nous avons n publicités (n <10), et nous voulons simplement savoir quelle publicité est la plus performante. Notre serveur publicitaire …

11 anova sample-size t-test rule-of-thumb

4

Calcul de la taille de l'échantillon pour la régression logistique univariée

Comment calcule-t-on la taille de l'échantillon nécessaire pour une étude dans laquelle une cohorte de sujets aura une seule variable continue mesurée au moment d'une intervention chirurgicale puis deux ans plus tard, ils seront classés comme résultat fonctionnel ou résultat altéré. Nous aimerions voir si cette mesure aurait pu prédire …

11 logistic sample-size

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

SurveyMonkey ignore-t-il que vous obtenez un échantillon non aléatoire?

SurveyMonkey comporte des étapes et un graphique pour vous permettre de déterminer la taille de l'échantillon dont vous avez besoin pour une marge d'erreur ou un intervalle de confiance donné, en fonction de la taille de votre population. Taille de l'échantillon SurveyMonkey Ce tableau ignore-t-il simplement le fait que vous …

11 confidence-interval sample-size survey sample

2

La pondération basée sur la précision (c.-à-d. La variance inverse) fait-elle partie intégrante de la méta-analyse?

La pondération basée sur la précision est-elle au cœur de la méta-analyse? Borenstein et al. (2009) écrivent que pour qu'une méta-analyse soit possible, il suffit que: Les études rapportent une estimation ponctuelle qui peut être exprimée sous la forme d'un nombre unique. La variance peut être calculée pour cette estimation …

10 variance sample-size missing-data meta-analysis

2

Comment choisir la formation, la validation croisée et la taille des ensembles de tests pour les données de petite taille d'échantillon?

Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique? Je choisirais intuitivement Taille de l'ensemble d'entraînement: 50 Ensemble de validation croisée taille 25, et Taille du test: …

10 machine-learning sampling svm cross-validation sample-size

2

Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles?

Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles? À mon avis, la réponse est non, car nous pouvons calculer avec précision les vraies valeurs des paramètres. Mais alors, quelle est la proportion maximale de données …

10 hypothesis-testing confidence-interval sample-size large-data population

3

Analyse de puissance pour les données binomiales lorsque l'hypothèse nulle est que

Je voudrais faire une analyse de puissance pour un seul échantillon à partir de données binomiales, avec , contre , où est la proportion de succès dans la population. Si , je pourrais utiliser soit l'approximation normale du binôme, soit -test, mais avec , les deux échouent. J'aimerais savoir s'il …

10 hypothesis-testing sample-size power-analysis power

1

Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Tracé d'entonnoir alternatif, sans utiliser d'erreur standard (SE)

Avant de soumettre ma méta-analyse, je veux faire un graphique en entonnoir pour tester l'hétérogénéité et le biais de publication. J'ai la taille d'effet groupée et les tailles d'effet de chaque étude, qui prennent des valeurs de -1 à +1. J'ai les tailles d'échantillon n1, n2 pour les patients et …

10 meta-analysis sample-size standard-error funnel-plot publication-bias

2

Taille minimale de l'échantillon par grappe dans un modèle à effet aléatoire

Existe-t-il une justification du nombre d'observations par grappe dans un modèle à effet aléatoire? J'ai un échantillon de 1 500 avec 700 grappes modélisées comme un effet aléatoire échangeable. J'ai la possibilité de fusionner des clusters afin d'en construire moins, mais des clusters plus grands. Je me demande comment puis-je …

10 mixed-model sample-size random-effects-model power-analysis

Questions marquées «sample-size»