Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
La page de Scikit Learn sur la sélection de modèles mentionne l'utilisation de la validation croisée imbriquée: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Deux boucles de validation croisée sont effectuées en parallèle: l'une par l'estimateur GridSearchCV pour définir le gamma et l'autre par cross_val_score pour …
Il semble y avoir des conseils contradictoires sur la façon de gérer la comparaison entre l'erreur de train et l'erreur de test, en particulier lorsqu'il y a un écart entre les deux. Il semble y avoir deux écoles de pensée qui, selon moi, semblent en conflit. Je cherche à comprendre …
Ma principale question est de savoir comment comprendre la validation croisée k-fold dans le contexte des ensembles de formation / validation / test (si cela correspond à un tel contexte). Habituellement, les gens parlent de diviser les données en un ensemble de formation, de validation et de test - disons …
J'ai une question sur l'optimisation des paramètres lorsque j'utilise la validation croisée 10 fois. Je veux demander si les paramètres doivent être fixés ou non lors de la formation du modèle de chaque pli, c'est-à-dire (1) sélectionner un ensemble de paramètres optimisés pour la précision moyenne de chaque pli. ou …
Habituellement, dans la régression logistique, nous ajustons un modèle et obtenons des prédictions sur l'ensemble d'entraînement. Nous validons ensuite ces prévisions d'entraînement (quelque chose comme ici ) et décidons de la valeur seuil optimale en fonction de quelque chose comme la courbe ROC. Pourquoi ne pas intégrer la validation croisée …
Lorsque nous évaluons la qualité d'une forêt aléatoire, par exemple en utilisant l'AUC, est-il plus approprié de calculer ces quantités sur les échantillons hors sac ou sur l'ensemble de validation croisée? J'entends que le calculer sur les échantillons OOB donne une évaluation plus pessimiste, mais je ne vois pas pourquoi.
Je viens de terminer "Une introduction à l'apprentissage statistique" . Je me demandais si l'utilisation de la validation croisée pour trouver les meilleurs paramètres de réglage pour diverses techniques d'apprentissage automatique était différente de l'espionnage des données? Nous vérifions à plusieurs reprises quelle valeur du paramètre de réglage donne un …
Lors de la validation croisée de k-fold, je comprends que vous obtenez les mesures de précision en pointant tous les plis sauf un sur ce pli et faites des prédictions, puis répétez ce processus fois. Vous pouvez ensuite exécuter des métriques d'exactitude sur toutes vos instances (précision, rappel,% correctement classées), …
Quelqu'un peut-il m'expliquer mon modèle Cox en anglais simple? J'ai ajusté le modèle de régression de Cox suivant à toutes mes données en utilisant la cphfonction. Mes données sont enregistrées dans un objet appelé Data. Les variables w, xet ysont continues; zest un facteur de deux niveaux. Le temps est …
Je pense que je comprends comment fonctionnent les principes fondamentaux du bootstrap , mais je ne suis pas sûr de comprendre comment je peux utiliser le bootstrap pour la sélection de modèle ou pour éviter le sur-ajustement. Pour la sélection du modèle, par exemple, choisiriez-vous simplement le modèle qui génère …
J'utilise scikit-learn pour effectuer une régression logistique avec validation croisée sur un ensemble de données (environ 14 paramètres avec> 7000 observations normalisées). J'ai également un classificateur cible qui a une valeur de 1 ou 0. Le problème que j'ai, c'est que quel que soit le solveur utilisé, je reçois toujours …
J'essaie d'écrire ma propre fonction pour l'analyse des composants principaux, PCA (bien sûr, il y a déjà beaucoup écrit mais je suis juste intéressé à implémenter des choses par moi-même). Le principal problème que j'ai rencontré est l'étape de validation croisée et le calcul de la somme prédite des carrés …
La question: Bootstrapping est supérieur au jackknifing; cependant, je me demande s'il existe des cas où le jackknifing est la seule ou au moins une option viable pour caractériser l'incertitude à partir des estimations des paramètres. De plus, dans des situations pratiques, dans quelle mesure le jackknifing est-il biaisé / …
Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité fondamentale. Existe-t-il un moyen d'utiliser les …
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.