Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
Tout d'abord, des excuses pour avoir posté une question qui a déjà été longuement discutée ici , ici , ici , ici , iciet pour réchauffer un vieux sujet. Je sais que @DikranMarsupial a longuement écrit sur ce sujet dans des articles et des journaux, mais je suis toujours confus, …
Si j'ai des données et que j'exécute une classification (disons forêt aléatoire sur ces données) avec validation croisée (disons 5 fois), pourrais-je conclure qu'il n'y a pas de sur-ajustement dans ma méthode?
J'ai utilisé la validation croisée de k-fold répétée et j'ai signalé la moyenne (de la métrique d'évaluation, par exemple, la sensibilité, la spécificité) calculée comme la moyenne générale à travers les plis des différentes séries de validation croisée. Cependant, je ne sais pas comment je dois signaler l'écart. J'ai trouvé …
Le package caret est une bibliothèque R brillante pour la construction de plusieurs modèles d'apprentissage automatique et a plusieurs fonctions pour la construction et l'évaluation de modèles. Pour le réglage des paramètres et la formation des modèles, le package caret propose la méthode 'repeatcv' comme l'une des méthodes. À titre …
Je suis tombé sur cet article de 2012 de Gitte Vanwinckelen et Hendrik Blockeel remettant en question l'utilité de la validation croisée répétée, qui est devenue une technique populaire pour réduire la variance de la validation croisée. Les auteurs ont démontré que, même si la validation croisée répétée diminue la …
J'ai un ensemble de données de 120 échantillons dans un paramètre de validation croisée 10 fois. Actuellement, je prends les données d'entraînement du premier holdout et fais une validation croisée 5 fois dessus pour choisir les valeurs de gamma et C par recherche dans la grille. J'utilise SVM avec le …
Si vous ajustez une fonction non linéaire à un ensemble de points (en supposant qu'il n'y a qu'une seule ordonnée pour chaque abscisse), le résultat peut être: une fonction très complexe avec de petits résidus une fonction très simple avec de gros résidus La validation croisée est couramment utilisée pour …
Je viens de revoir une conférence du cours Machine Learning sur Coursera. Dans la section où le professeur discute de l'ACP pour le prétraitement des données dans les applications d'apprentissage supervisé, il dit que l'ACP ne devrait être effectuée que sur les données de formation, puis la cartographie est utilisée …
La normalisation des données (pour avoir une moyenne nulle et un écart-type unitaire) avant d'effectuer une validation croisée multipliée par k a-t-elle des conséquences négatives telles qu'un sur-ajustement? Remarque: c'est pour une situation où #cases> total #features Je transforme certaines de mes données à l'aide d'une transformation de journal, puis …
Je suis relativement nouveau dans les forêts aléatoires. Dans le passé, j'ai toujours comparé la précision de l' ajustement vs le test à l' ajustement vs le train pour détecter tout sur-ajustement. Mais je viens de lire ici que: "Dans les forêts aléatoires, il n'y a pas besoin de validation …
Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test non paramétrique comme Mann-Whitney-U-testcela entraînerait la perte …
TLDR: Mon ensemble de données est assez petit (120) échantillons. Lors de la validation croisée 10 fois, dois-je: Recueillir les résultats de chaque pli test, les concaténer en un vecteur, puis calculer l'erreur sur ce vecteur complet de prédictions (120 échantillons)? Ou devrais-je plutôt calculer l'erreur sur les sorties que …
Je suis très nouveau dans l'analyse des données fonctionnelles (FDA). Je suis en train de lire: Ramsay, James O., et Silverman, Bernard W. (2006), Functional Data Analysis, 2e éd., Springer, New York. Cependant, je ne sais toujours pas très bien où / quand utiliser la FDA? Quelqu'un pourrait-il me donner …
"Validation Bootstrap" / "validation croisée de rééchantillonnage" est nouveau pour moi, mais a été discuté par la réponse à cette question . Je suppose que cela implique 2 types de données: les données réelles et les données simulées, où un ensemble donné de données simulées est généré à partir des …
Supposons que j'ai construit un modèle de prédiction pour l'occurrence d'une maladie particulière dans un jeu de données (le jeu de données de construction du modèle) et que je souhaite maintenant vérifier l'efficacité du modèle dans un nouveau jeu de données (le jeu de données de validation). Pour un modèle …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.