Statistiques et Big Data cross-validation

2

Validation croisée et régression logistique ordinale

J'essaie de comprendre la validation croisée pour la régression logistique ordinale. Le but du jeu est de valider le modèle utilisé dans une analyse ... Je construis d'abord un ensemble de données sur les jouets: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) …

12 regression cross-validation ordered-logit rms

2

Keras: pourquoi la perte diminue-t-elle alors que val_loss augmente?

J'ai configuré une recherche de grille pour un tas de paramètres. J'essaie de trouver les meilleurs paramètres pour un réseau neuronal Keras qui effectue une classification binaire. La sortie est soit un 1 soit un 0. Il y a environ 200 fonctionnalités. Quand j'ai fait une recherche dans la grille, …

12 machine-learning cross-validation deep-learning tensorflow theano

1

Comment choisir un noyau pour le noyau PCA?

Quelles sont les façons de choisir quel noyau entraînerait une bonne séparation des données dans la sortie finale des données par le noyau PCA (analyse des composants principaux), et quelles sont les façons d'optimiser les paramètres du noyau? Les termes de Layman, si possible, seraient grandement appréciés, et des liens …

12 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

2

Définition exacte de la mesure de déviance dans le package glmnet, avec validation croisée?

Pour ma recherche actuelle, j'utilise la méthode Lasso via le package glmnet dans R sur une variable dépendante binomiale. Dans glmnet, le lambda optimal est trouvé par validation croisée et les modèles résultants peuvent être comparés à diverses mesures, par exemple erreur de classification erronée ou déviance. Ma question: comment …

12 cross-validation lasso glmnet deviance lars

2

Le taux d'erreur est-il une fonction convexe du paramètre de régularisation lambda?

En choisissant le paramètre de régularisation lambda dans Ridge ou Lasso, la méthode recommandée consiste à essayer différentes valeurs de lambda, à mesurer l'erreur dans l'ensemble de validation et enfin à choisir la valeur de lambda qui renvoie l'erreur la plus faible. Ce n'est pas pour moi si la fonction …

11 cross-validation error regularization validation optimization

2

La division des données en ensembles de test et de formation est-elle purement «statistique»?

Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup …

11 regression machine-learning cross-validation dataset experiment-design

1

Pourquoi un grand choix de K réduit-il mon score de validation croisée?

En jouant avec le Boston Housing Dataset et RandomForestRegressor(avec les paramètres par défaut) dans scikit-learn, j'ai remarqué quelque chose d'étrange: le score moyen de validation croisée a diminué lorsque j'ai augmenté le nombre de plis au-delà de 10. Ma stratégie de validation croisée était la suivante: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …

11 machine-learning cross-validation random-forest sample-size scikit-learn

4

Quelle est la manière la plus appropriée de créer un ensemble d'exclusion: supprimer certains sujets ou supprimer certaines observations de chaque sujet?

J'ai un ensemble de données avec 26 fonctionnalités et 31000 lignes. C'est l'ensemble de données de 38 sujets. C'est pour un système biométrique. Je veux donc pouvoir identifier les sujets. Afin d'avoir un ensemble de tests, je sais que je dois supprimer certaines valeurs. Alors, que vaut-il mieux faire et …

11 machine-learning cross-validation out-of-sample

2

Validation croisée après LASSO dans des données d'enquête complexes

J'essaie de faire une sélection de modèle sur certains prédicteurs candidats en utilisant LASSO avec un résultat continu. Le but est de sélectionner le modèle optimal avec les meilleures performances de prédiction, ce qui peut généralement être fait par validation croisée K-fold après avoir obtenu un chemin de solution des …

11 cross-validation survey lasso glmnet

3

Intervalle de confiance pour l'exactitude de la classification validée de façon croisée

Je travaille sur un problème de classification qui calcule une métrique de similitude entre deux images radiographiques d'entrée. Si les images sont de la même personne (étiquette de «droite»), une métrique plus élevée sera calculée; les images d'entrée de deux personnes différentes (étiquette de «mauvais») entraîneront une mesure inférieure. J'ai …

11 classification confidence-interval cross-validation matlab

1

Précision moyenne et rappel lors de l'utilisation de la validation croisée

J'ai effectué une classification en utilisant plusieurs classificateurs pour des données étiquetées à 2 classes, et j'ai utilisé une validation croisée 5 fois. Pour chaque pli, j'ai calculé tp, tn, fp et fn. Ensuite, j'ai calculé l'exactitude, la précision, le rappel et le score F pour chaque test. Ma question …

11 classification cross-validation precision-recall

1

Comment détecter si un processus gaussien est trop adapté?

J'entraîne un processus gaussien avec un noyau ARD avec beaucoup de paramètres en maximisant la lisibilité marginale des données, au lieu de la validation croisée. Je soupçonne que c'est trop adapté. Comment puis-je tester cette suspicion dans un contexte bayésien?

11 machine-learning cross-validation gaussian-process

1

Interprétation bayésienne, MDL ou ML de la validation croisée?

Existe-t-il une interprétation bayésienne, ML ou MDL connue de la validation croisée? Puis-je interpréter la validation croisée comme effectuant la bonne mise à jour sur une version antérieure spécialement conçue?

11 bayesian cross-validation maximum-likelihood

3

Fractionnement des données de séries chronologiques en ensembles de train / test / validation

Quelle est la meilleure façon de diviser les données de séries chronologiques en ensembles train / test / validation, où l'ensemble de validation serait utilisé pour le réglage d'hyperparamètre? Nous avons 3 ans de données de vente quotidiennes, et notre plan est d'utiliser 2015-2016 comme données de formation, puis échantillonner …

11 time-series cross-validation validation

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

Questions marquées «cross-validation»