Statistiques et Big Data bootstrap

1

Quand / pourquoi la tendance centrale d'une simulation de rééchantillonnage diffère-t-elle nettement de la valeur observée?

Doit-on toujours s'attendre à ce que la tendance centrale (c.-à-d. La moyenne et / ou la médiane) d'un échantillon bootstrap soit similaire à la valeur observée? Dans ce cas particulier, j'ai des réponses qui sont distribuées de façon exponentielle pour les sujets dans deux conditions (je n'ai pas exécuté l'expérience, …

8 bootstrap simulation effect-size cohens-d

1

Comment Efron a-t-il imaginé le bootstrap?

Connaissez-vous Bradley Efron ? C'est un grand homme. Comment Efron a-t-il imaginé ou pensé au "bootstrap" pour la première fois?

8 bootstrap history

2

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

1

La taille doit-elle être évitée pour l'ensachage (avec des arbres de décision)?

Je suis venu par plusieurs articles et documents affirmant que l'élagage des arbres dans un ensemble d'arbres "ensachés" n'était pas nécessaire (voir 1 ). Cependant, est-ce nécessairement (ou du moins dans certains cas connus) dommageable d'effectuer l'élagage (par exemple, avec l'échantillon OOB) sur les arbres individuels dans un ensemble? Merci!

8 bootstrap cart bagging

1

Quelle méthode simule les valeurs p du rééchantillonnage à partir des données

Il y a quelque temps, j'ai posé une question sur la corrélation des temps entre les horodatages et j'ai reçu une réponse de Peter Ellis qui m'a dit que je pouvais calculer les distances moyennes entre les codes ... Cela vous donnera déjà une idée des comportements qui sont regroupés, …

8 bootstrap monte-carlo resampling quasi-monte-carlo

1

Calculer la valeur p dans le bootstrap apparié

Je suis tombé sur un nouvel article du groupe Berkeley NLP sur les tests statistiques, An Empirical Investigation of Statistical Significance in NLP . Il existe un pseudocode pour calculer une valeur de p dans le papier, en gros, l'idée est que l'ensemble d'échantillons de X1,X2, . . . ,XNx1,x2,...,xNx_1,x_2,...,x_N …

8 hypothesis-testing bootstrap p-value

2

Bootstrap vs intégration numérique

Ma compréhension de l'approche bootstrap est basée sur le cadre de Wasserman (presque mot pour mot): Soit une statistique ( est l'échantillon iid tiré de la distribution ). Supposons que nous voulons estimer - la variance de donné .Tn=g(X1,...,Xn)Tn=g(X1,...,Xn)T_n = g(X_1, ..., X_n)XiXiX_iFFFVF(Tn)VF(Tn)V_F(T_n)TnTnT_nFFF L'approche bootstrap suit ces deux étapes: Estimer …

8 bootstrap computational-statistics

2

Lecture recommandée pour comprendre quand le bootstrap échouera?

Il est connu que le bootstrap peut échouer. J'ai lu dans la section 6 de Bickel et Freedman (1981) que le bootstrap échoue lorsque vous voulez l'utiliser pour évaluer le MLE pour estimer le paramètre d'une distribution uniforme continue. J'ai lu la section 7.4 du livre d'Efron et Tibshirani, mais …

8 bootstrap references

1

Bootstrapping avec un petit nombre d'observations

Disons que j'ai collecté un petit nombre (N) d'observations pour une hypothèse que j'aimerais tester. Je pourrais utiliser la méthode bootstrap pour produire une distribution d'échantillon pour le résultat moyen de N observations, mais je crains que ce modèle ne se décompose lorsque N devient très petit, introduisant une erreur …

8 bootstrap

1

Estimations paramétrées et ajustées avec non-normalité pour les modèles d'équations structurelles

Le contexte: Dans le cadre de la modélisation d'équations structurelles, j'ai une non-normalité selon le test de Mardia mais les indices univariés d'asymétrie et de kurtosis sont inférieurs à 2,0. Des questions: Les estimations des paramètres (estimations des coefficients) devraient-elles être évaluées en utilisant le bootstrap (1000 répétitions) avec des …

8 bootstrap normality-assumption sem

3

Effectuer des régressions sur des échantillons d'un fichier très volumineux: les moyennes et les ES des coefficients d'échantillonnage sont-ils des estimateurs cohérents?

J'ai un fichier assez volumineux de 100 millions de lignes et 30 colonnes environ, sur lequel j'aimerais exécuter plusieurs régressions. J'ai un code spécialisé pour exécuter les régressions sur l'ensemble du fichier, mais ce que je voudrais faire est de tirer des échantillons aléatoires du fichier et de les exécuter …

8 r regression large-data bootstrap

2

Que ce soit pour utiliser une régression linéaire robuste ou un bootstrap en cas d'hétéroscédasticité?

J'ai un ensemble de données où je dois faire une régression linéaire. Malheureusement, il existe un problème d'hétéroscédasticité. J'ai relancé l'analyse en utilisant une régression robuste avec l'estimateur HC3 pour la variance et j'ai également effectué un bootstrap avec la fonction bootcov dans Hmisc pour R. Les résultats sont assez …

8 regression bootstrap heteroscedasticity

Questions marquées «bootstrap»