Statistiques et Big Data cross-validation

1

Comment intégrer une valeur aberrante innovante à l'observation 48 dans mon modèle ARIMA?

Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1). J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine. Comment …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

5

Comment décidez-vous de vos pourcentages de train, de validation et de test?

Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un …

10 machine-learning cross-validation

1

Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?

J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

Stabilité du modèle dans la validation croisée des modèles de régression

Étant donné les multiples plis de validation croisée d'une régression logistique et les estimations multiples résultantes de chaque coefficient de régression, comment doit-on mesurer si un prédicteur (ou un ensemble de prédicteurs) est ou non stable et significatif sur la base du ou des coefficients de régression ? Est-ce différent …

10 regression model-selection cross-validation

4

Existe-t-il un moyen d'utiliser la validation croisée pour effectuer une sélection de variable / fonctionnalité dans R?

J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …

10 r cross-validation feature-selection random-forest stepwise-regression

3

Bonne littérature sur la validation croisée

Quelqu'un connaît-il un bon livre / une bonne page Web pour commencer à apprendre les techniques de validation croisée?

10 references cross-validation

1

Validation croisée de la régression du lasso en R

La fonction R cv.glm (bibliothèque: boot) calcule l'erreur de prédiction de validation croisée K-fold estimée pour les modèles linéaires généralisés et renvoie delta. Est-il judicieux d'utiliser cette fonction pour une régression au lasso (bibliothèque: glmnet) et si oui, comment peut-elle être réalisée? La bibliothèque glmnet utilise une validation croisée pour …

10 r regression cross-validation lasso glmnet

2

Validation croisée imbriquée - en quoi est-elle différente de la sélection de modèle via kfold CV sur le kit de formation?

Je vois souvent des gens parler de la validation croisée 5x2 comme un cas spécial de validation croisée imbriquée . Je suppose que le premier nombre (ici: 5) fait référence au nombre de plis dans la boucle intérieure et le deuxième nombre (ici: 2) fait référence au nombre de plis …

10 machine-learning cross-validation hyperparameter

2

Implémentation de la validation croisée imbriquée

J'essaie de comprendre si ma compréhension de la validation croisée imbriquée est correcte, j'ai donc écrit cet exemple de jouet pour voir si j'ai raison: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 …

10 cross-validation python scikit-learn

4

Modèle d'historique d'événement à temps discret (survie) dans R

J'essaie d'adapter un modèle à temps discret dans R, mais je ne sais pas comment le faire. J'ai lu que vous pouvez organiser la variable dépendante dans différentes lignes, une pour chaque observation de temps, et utiliser la glmfonction avec un lien logit ou cloglog. En ce sens, j'ai trois …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

Validation croisée GAM pour tester l'erreur de prédiction

Mes questions portent sur les GAM dans le package mgcv R. En raison de la petite taille de l'échantillon, je souhaite déterminer l'erreur de prédiction à l'aide de la validation croisée avec laisser-un-out. Est-ce raisonnable? Existe-t-il un package ou un code pour y parvenir? La errorest()fonction du package ipred ne …

10 r cross-validation gam mgcv

1

Calcul des intervalles de prédiction lors de l'utilisation de la validation croisée

Les estimations de l'écart type sont-elles calculées via: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) pour des précisions de prédiction échantillonnées à partir d'une validation croisée multipliée par 10? Je crains que la précision de la prédiction calculée entre chaque pli dépende en raison du chevauchement …

10 confidence-interval cross-validation prediction prediction-interval

2

Comment simuler des résultats multivariés dans R?

La plupart des situations, nous ne traitons qu'avec une variable de résultat / réponse telle que . Cependant, dans certains scénarios, en particulier dans les données cliniques, les variables de résultat peuvent être de grande dimension / multivariées. Tels que , où contient les , et et ces résultats sont …

10 r cross-validation

1

Comment générez-vous des courbes ROC pour une validation croisée sans intervention?

Lors d'une validation croisée 5 fois (par exemple), il est typique de calculer une courbe ROC distincte pour chacun des 5 plis et souvent une courbe ROC moyenne avec std. dev. montré comme épaisseur de courbe. Cependant, pour la validation croisée LOO, où il n'y a qu'un seul point de …

10 cross-validation roc

2

Modèle final issu de la validation croisée des séries chronologiques

J'ai une expérience antérieure avec la validation croisée `` normale '' pour le réglage de modèle et je suis légèrement confus par l'application dans les modèles de séries chronologiques. Je crois comprendre que pour les modèles de séries chronologiques, le corollaire de la validation croisée est la procédure d '«origine …

10 time-series forecasting cross-validation

Questions marquées «cross-validation»