Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
J'essaie de comprendre la validation croisée pour la régression logistique ordinale. Le but du jeu est de valider le modèle utilisé dans une analyse ... Je construis d'abord un ensemble de données sur les jouets: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) …
J'ai configuré une recherche de grille pour un tas de paramètres. J'essaie de trouver les meilleurs paramètres pour un réseau neuronal Keras qui effectue une classification binaire. La sortie est soit un 1 soit un 0. Il y a environ 200 fonctionnalités. Quand j'ai fait une recherche dans la grille, …
Quelles sont les façons de choisir quel noyau entraînerait une bonne séparation des données dans la sortie finale des données par le noyau PCA (analyse des composants principaux), et quelles sont les façons d'optimiser les paramètres du noyau? Les termes de Layman, si possible, seraient grandement appréciés, et des liens …
Pour ma recherche actuelle, j'utilise la méthode Lasso via le package glmnet dans R sur une variable dépendante binomiale. Dans glmnet, le lambda optimal est trouvé par validation croisée et les modèles résultants peuvent être comparés à diverses mesures, par exemple erreur de classification erronée ou déviance. Ma question: comment …
En choisissant le paramètre de régularisation lambda dans Ridge ou Lasso, la méthode recommandée consiste à essayer différentes valeurs de lambda, à mesurer l'erreur dans l'ensemble de validation et enfin à choisir la valeur de lambda qui renvoie l'erreur la plus faible. Ce n'est pas pour moi si la fonction …
Je suis un étudiant en physique qui étudie l'apprentissage automatique / la science des données, donc je ne veux pas que cette question déclenche des conflits :) Cependant, une grande partie de tout programme de premier cycle en physique consiste à faire des laboratoires / expériences, ce qui signifie beaucoup …
En jouant avec le Boston Housing Dataset et RandomForestRegressor(avec les paramètres par défaut) dans scikit-learn, j'ai remarqué quelque chose d'étrange: le score moyen de validation croisée a diminué lorsque j'ai augmenté le nombre de plis au-delà de 10. Ma stratégie de validation croisée était la suivante: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …
J'ai un ensemble de données avec 26 fonctionnalités et 31000 lignes. C'est l'ensemble de données de 38 sujets. C'est pour un système biométrique. Je veux donc pouvoir identifier les sujets. Afin d'avoir un ensemble de tests, je sais que je dois supprimer certaines valeurs. Alors, que vaut-il mieux faire et …
J'essaie de faire une sélection de modèle sur certains prédicteurs candidats en utilisant LASSO avec un résultat continu. Le but est de sélectionner le modèle optimal avec les meilleures performances de prédiction, ce qui peut généralement être fait par validation croisée K-fold après avoir obtenu un chemin de solution des …
Je travaille sur un problème de classification qui calcule une métrique de similitude entre deux images radiographiques d'entrée. Si les images sont de la même personne (étiquette de «droite»), une métrique plus élevée sera calculée; les images d'entrée de deux personnes différentes (étiquette de «mauvais») entraîneront une mesure inférieure. J'ai …
J'ai effectué une classification en utilisant plusieurs classificateurs pour des données étiquetées à 2 classes, et j'ai utilisé une validation croisée 5 fois. Pour chaque pli, j'ai calculé tp, tn, fp et fn. Ensuite, j'ai calculé l'exactitude, la précision, le rappel et le score F pour chaque test. Ma question …
J'entraîne un processus gaussien avec un noyau ARD avec beaucoup de paramètres en maximisant la lisibilité marginale des données, au lieu de la validation croisée. Je soupçonne que c'est trop adapté. Comment puis-je tester cette suspicion dans un contexte bayésien?
Existe-t-il une interprétation bayésienne, ML ou MDL connue de la validation croisée? Puis-je interpréter la validation croisée comme effectuant la bonne mise à jour sur une version antérieure spécialement conçue?
Quelle est la meilleure façon de diviser les données de séries chronologiques en ensembles train / test / validation, où l'ensemble de validation serait utilisé pour le réglage d'hyperparamètre? Nous avons 3 ans de données de vente quotidiennes, et notre plan est d'utiliser 2015-2016 comme données de formation, puis échantillonner …
Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.