Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1). J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine. Comment …
Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un …
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
Étant donné les multiples plis de validation croisée d'une régression logistique et les estimations multiples résultantes de chaque coefficient de régression, comment doit-on mesurer si un prédicteur (ou un ensemble de prédicteurs) est ou non stable et significatif sur la base du ou des coefficients de régression ? Est-ce différent …
J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …
La fonction R cv.glm (bibliothèque: boot) calcule l'erreur de prédiction de validation croisée K-fold estimée pour les modèles linéaires généralisés et renvoie delta. Est-il judicieux d'utiliser cette fonction pour une régression au lasso (bibliothèque: glmnet) et si oui, comment peut-elle être réalisée? La bibliothèque glmnet utilise une validation croisée pour …
Je vois souvent des gens parler de la validation croisée 5x2 comme un cas spécial de validation croisée imbriquée . Je suppose que le premier nombre (ici: 5) fait référence au nombre de plis dans la boucle intérieure et le deuxième nombre (ici: 2) fait référence au nombre de plis …
J'essaie de comprendre si ma compréhension de la validation croisée imbriquée est correcte, j'ai donc écrit cet exemple de jouet pour voir si j'ai raison: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 …
J'essaie d'adapter un modèle à temps discret dans R, mais je ne sais pas comment le faire. J'ai lu que vous pouvez organiser la variable dépendante dans différentes lignes, une pour chaque observation de temps, et utiliser la glmfonction avec un lien logit ou cloglog. En ce sens, j'ai trois …
Mes questions portent sur les GAM dans le package mgcv R. En raison de la petite taille de l'échantillon, je souhaite déterminer l'erreur de prédiction à l'aide de la validation croisée avec laisser-un-out. Est-ce raisonnable? Existe-t-il un package ou un code pour y parvenir? La errorest()fonction du package ipred ne …
Les estimations de l'écart type sont-elles calculées via: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) pour des précisions de prédiction échantillonnées à partir d'une validation croisée multipliée par 10? Je crains que la précision de la prédiction calculée entre chaque pli dépende en raison du chevauchement …
La plupart des situations, nous ne traitons qu'avec une variable de résultat / réponse telle que . Cependant, dans certains scénarios, en particulier dans les données cliniques, les variables de résultat peuvent être de grande dimension / multivariées. Tels que , où contient les , et et ces résultats sont …
Lors d'une validation croisée 5 fois (par exemple), il est typique de calculer une courbe ROC distincte pour chacun des 5 plis et souvent une courbe ROC moyenne avec std. dev. montré comme épaisseur de courbe. Cependant, pour la validation croisée LOO, où il n'y a qu'un seul point de …
J'ai une expérience antérieure avec la validation croisée `` normale '' pour le réglage de modèle et je suis légèrement confus par l'application dans les modèles de séries chronologiques. Je crois comprendre que pour les modèles de séries chronologiques, le corollaire de la validation croisée est la procédure d '«origine …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.