Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
J'effectue une régression logistique net élastique sur un ensemble de données de soins de santé en utilisant le glmnetpackage dans R en sélectionnant les valeurs lambda sur une grille de de 0 à 1. Mon code abrégé est ci-dessous:αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …
Ma compréhension est que même en suivant les procédures appropriées de validation croisée et de sélection de modèle, un sur-ajustement se produira si l'on recherche un modèle assez dur , à moins d'imposer des restrictions sur la complexité du modèle, point final. De plus, il arrive souvent que les gens …
Remarque: le cas est n >> p Je lis Éléments d'apprentissage statistique et il y a diverses mentions sur la «bonne» façon de faire la validation croisée (par exemple page 60, page 245). Plus précisément, ma question est de savoir comment évaluer le modèle final (sans ensemble de test séparé) …
J'ai lu sur la validation k-fold, et je veux m'assurer de comprendre comment cela fonctionne. Je sais que pour la méthode d'exclusion, les données sont divisées en trois ensembles, et l'ensemble de test n'est utilisé qu'à la toute fin pour évaluer les performances du modèle, tandis que l'ensemble de validation …
J'ai effectué une validation croisée 10 fois sur différents algorithmes de classification binaire, avec le même ensemble de données, et j'ai reçu des résultats moyens à la fois micro et macro. Il convient de mentionner qu'il s'agissait d'un problème de classification multi-étiquettes. Dans mon cas, les vrais négatifs et les …
Je sais que le réglage de l'hyperparamètre en dehors de la validation croisée peut conduire à des estimations biaisées de la validité externe, car l'ensemble de données que vous utilisez pour mesurer les performances est le même que celui que vous avez utilisé pour régler les fonctionnalités. Ce que je …
Je teste différents classificateurs sur un ensemble de données où il y a 5 classes et chaque instance peut appartenir à une ou plusieurs de ces classes, j'utilise donc spécifiquement les classificateurs multi-étiquettes de scikit-learn sklearn.multiclass.OneVsRestClassifier. Maintenant, je veux effectuer une validation croisée en utilisant le sklearn.cross_validation.StratifiedKFold. Cela produit l'erreur …
J'utilise libsvm en mode C-SVC avec un noyau polynomial de degré 2 et je dois former plusieurs SVM. Chaque ensemble d'entraînement a 10 fonctionnalités et 5000 vecteurs. Pendant la formation, je reçois cet avertissement pour la plupart des SVM que je forme: WARNING: reaching max number of iterations optimization finished, …
Étant donné un modèle hiérarchique , je veux un processus en deux étapes pour s'adapter au modèle. Tout d'abord, corrigez une poignée d'hyperparamètres , puis faites l'inférence bayésienne sur le reste des paramètres . Pour fixer les hyperparamètres, j'envisage deux options.θ ϕp ( x | ϕ , θ )p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi Utilisez …
Les tests de signification et la validation croisée sont deux approches courantes pour sélectionner des variables corrélées. Quel problème chacun essaie-t-il de résoudre et quand est-ce que je préférerais l'un plutôt que l'autre?
La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test statistique où j'ai …
J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir …
Je suis confus sur la façon de partitionner les données pour la validation croisée k-fold de l'apprentissage d'ensemble. En supposant que j'ai un cadre d'apprentissage d'ensemble pour la classification. Ma première couche contient les modèles de classification, par exemple svm, les arbres de décision. Ma deuxième couche contient un modèle …
Je voudrais savoir s'il y a des avantages / certains à utiliser l'échantillonnage stratifié au lieu de l'échantillonnage aléatoire, lors de la division de l'ensemble de données d'origine en ensemble de formation et de test pour la classification. De plus, l'échantillonnage stratifié introduit-il plus de biais dans le classificateur que …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.