Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
Cette question est peut-être trop ouverte pour obtenir une réponse définitive, mais j'espère que non. Les algorithmes d'apprentissage machine, tels que SVM, GBM, Random Forest, etc., ont généralement quelques paramètres libres qui, au-delà de certaines indications empiriques, doivent être adaptés à chaque jeu de données. Cela se fait généralement avec …
Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …
On m'a dit qu'il est avantageux d'utiliser la validation croisée stratifiée, en particulier lorsque les classes de réponse sont déséquilibrées. Si l'un des objectifs de la validation croisée est d'aider à rendre compte du caractère aléatoire de notre échantillon de données de formation d'origine, faire en sorte que chaque pli …
Je suis en train de valider un modèle qui essaie de prédire un nombre. S'il s'agissait d'un problème de classification binaire, je calculerais l'ASC hors pli, et s'il s'agissait d'un problème de régression, je calculerais le RMSE ou MAE hors pli. Pour un modèle de Poisson, quelles mesures d'erreur puis-je …
J'essaie d'apprendre différentes méthodes de validation croisée, principalement avec l'intention de m'appliquer aux techniques d'analyse multivariée supervisée. Deux que j'ai rencontrés sont des techniques de validation croisée K-fold et Monte Carlo. J'ai lu que le K-fold est une variation de Monte Carlo mais je ne suis pas sûr de bien …
J'ai une question concernant le processus de validation croisée. Je suis au milieu d'un cours de Machine Learning sur la Cursera. L'un des sujets concerne la validation croisée. J'ai trouvé ça un peu difficile à suivre. Je sais pourquoi nous avons besoin de CV parce que nous voulons que nos …
Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) …
Il est bien connu, en particulier dans le traitement du langage naturel, que l’apprentissage automatique doit se dérouler en deux étapes, une étape de formation et une étape d’évaluation, et utiliser des données différentes. Pourquoi est-ce? Intuitivement, ce processus permet d'éviter de sur-ajuster les données, mais je ne vois pas …
Dans la classification de texte, j'ai un ensemble de formation avec environ 800 échantillons et un ensemble de test avec environ 150 échantillons. L'ensemble de test n'a jamais été utilisé et attend d'être utilisé jusqu'à la fin. J'utilise l'ensemble de formation de 800 échantillons, avec une validation croisée 10 fois …
La validation croisée K-fold peut être utilisée pour estimer la capacité de généralisation d'un classificateur donné. Puis-je (ou devrais-je) également calculer une variance regroupée à partir de tous les cycles de validation afin d'obtenir une meilleure estimation de sa variance? Sinon, pourquoi? J'ai trouvé des articles qui utilisent l'écart-type groupé …
Dans une question ailleurs sur ce site, plusieurs réponses ont mentionné que l'AIC est équivalent à la validation croisée avec absence de contact (LOO) et que le BIC est équivalent à la validation croisée K-fold. Existe-t-il un moyen de démontrer empiriquement cela dans R de telle sorte que les techniques …
Je crois comprendre qu'avec la validation croisée et la sélection de modèles, nous essayons de résoudre deux choses: P1 . Estimer la perte attendue sur la population lors de la formation avec notre échantillon P2 . Mesurer et rendre compte de notre incertitude sur cette estimation (variance, intervalles de confiance, …
Dans certaines conférences et tutoriels que j'ai vus, ils suggèrent de diviser vos données en trois parties: formation, validation et test. Mais il n'est pas clair comment le jeu de données de test doit être utilisé, ni comment cette approche est meilleure que la validation croisée sur l'ensemble des données. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.