Statistiques et Big Data cross-validation

2

Choisir l'alpha optimal dans la régression logistique nette élastique

J'effectue une régression logistique net élastique sur un ensemble de données de soins de santé en utilisant le glmnetpackage dans R en sélectionnant les valeurs lambda sur une grille de de 0 à 1. Mon code abrégé est ci-dessous:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …

22 machine-learning cross-validation glmnet elastic-net

5

Sur-ajustement: pas de solution miracle?

Ma compréhension est que même en suivant les procédures appropriées de validation croisée et de sélection de modèle, un sur-ajustement se produira si l'on recherche un modèle assez dur , à moins d'imposer des restrictions sur la complexité du modèle, point final. De plus, il arrive souvent que les gens …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

Validation croisée (généralisation des erreurs) après la sélection du modèle

Remarque: le cas est n >> p Je lis Éléments d'apprentissage statistique et il y a diverses mentions sur la «bonne» façon de faire la validation croisée (par exemple page 60, page 245). Plus précisément, ma question est de savoir comment évaluer le modèle final (sans ensemble de test séparé) …

21 machine-learning model-selection data-mining cross-validation

3

Avons-nous besoin d'un ensemble de test lors de l'utilisation de la validation croisée k-fold?

J'ai lu sur la validation k-fold, et je veux m'assurer de comprendre comment cela fonctionne. Je sais que pour la méthode d'exclusion, les données sont divisées en trois ensembles, et l'ensemble de test n'est utilisé qu'à la toute fin pour évaluer les performances du modèle, tandis que l'ensemble de validation …

21 cross-validation validation out-of-sample

1

Dois-je prendre des décisions basées sur des mesures d'évaluation micro-moyennes ou macro-moyennes?

J'ai effectué une validation croisée 10 fois sur différents algorithmes de classification binaire, avec le même ensemble de données, et j'ai reçu des résultats moyens à la fois micro et macro. Il convient de mentionner qu'il s'agissait d'un problème de classification multi-étiquettes. Dans mon cas, les vrais négatifs et les …

21 machine-learning cross-validation

4

Quelle est la gravité du réglage hyperparamétrique en dehors de la validation croisée?

Je sais que le réglage de l'hyperparamètre en dehors de la validation croisée peut conduire à des estimations biaisées de la validité externe, car l'ensemble de données que vous utilisez pour mesurer les performances est le même que celui que vous avez utilisé pour régler les fonctionnalités. Ce que je …

20 cross-validation validation hyperparameter

2

Comment utiliser les fonctions de validation croisée de scikit-learn sur les classificateurs multi-étiquettes

Je teste différents classificateurs sur un ensemble de données où il y a 5 classes et chaque instance peut appartenir à une ou plusieurs de ces classes, j'utilise donc spécifiquement les classificateurs multi-étiquettes de scikit-learn sklearn.multiclass.OneVsRestClassifier. Maintenant, je veux effectuer une validation croisée en utilisant le sklearn.cross_validation.StratifiedKFold. Cela produit l'erreur …

20 cross-validation python multi-class scikit-learn multilabel

1

avertissement et validation croisée de libsvm "atteignant le nombre maximal d'itérations"

J'utilise libsvm en mode C-SVC avec un noyau polynomial de degré 2 et je dois former plusieurs SVM. Chaque ensemble d'entraînement a 10 fonctionnalités et 5000 vecteurs. Pendant la formation, je reçois cet avertissement pour la plupart des SVM que je forme: WARNING: reaching max number of iterations optimization finished, …

20 machine-learning cross-validation svm regularization libsvm

2

Validation croisée vs Bayes empiriques pour estimer les hyperparamètres

Étant donné un modèle hiérarchique , je veux un processus en deux étapes pour s'adapter au modèle. Tout d'abord, corrigez une poignée d'hyperparamètres , puis faites l'inférence bayésienne sur le reste des paramètres . Pour fixer les hyperparamètres, j'envisage deux options.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi Utilisez …

20 cross-validation references empirical-bayes

2

Test de signification ou validation croisée?

Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?

20 cross-validation feature-selection

4

Quelles sont les valeurs correctes pour la précision et le rappel dans les cas de bord?

La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Pensée bayésienne sur le sur-ajustement

J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir …

20 bayesian cross-validation predictive-models validation regression-strategies

2

Le caret train fonctionne-t-il pour la validation croisée de glmnet pour alpha et lambda?

Le caretpackage R effectue -t-il une validation croisée sur alphaet lambdapour le glmnetmodèle? Exécuter ce code, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl …

20 r machine-learning cross-validation caret glmnet

1

k-fold Validation croisée de l'apprentissage d'ensemble

Je suis confus sur la façon de partitionner les données pour la validation croisée k-fold de l'apprentissage d'ensemble. En supposant que j'ai un cadre d'apprentissage d'ensemble pour la classification. Ma première couche contient les modèles de classification, par exemple svm, les arbres de décision. Ma deuxième couche contient un modèle …

20 classification cross-validation ensemble

1

Avantages de l'échantillonnage stratifié par rapport à l'échantillonnage aléatoire pour générer des données de formation dans la classification

Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …

20 classification cross-validation random-forest train stratification

Questions marquées «cross-validation»