J'ai quelques données et je veux construire un modèle (disons un modèle de régression linéaire) à partir de ces données. Dans une prochaine étape, je souhaite appliquer la validation croisée avec absence de changement (LOOCV) sur le modèle afin de voir à quel point il fonctionne.
Si j'ai bien compris LOOCV, je construis un nouveau modèle pour chacun de mes échantillons (l'ensemble de test) en utilisant chaque échantillon à l'exception de cet échantillon (l'ensemble de formation). Ensuite, j'utilise le modèle pour prédire l'ensemble de test et calculer les erreurs .
Dans une étape suivante, j'agrège toutes les erreurs générées à l'aide d'une fonction choisie, par exemple l'erreur quadratique moyenne. Je peux utiliser ces valeurs pour juger de la qualité (ou de la qualité de l'ajustement) du modèle.
Question: Quel modèle est le modèle auquel ces valeurs de qualité s'appliquent, alors quel modèle dois-je choisir si je trouve les métriques générées à partir de LOOCV appropriées pour mon cas? LOOCV a examiné modèles différents (où n est la taille de l'échantillon); quel modèle choisir?
- Est-ce le modèle qui utilise tous les échantillons? Ce modèle n'a jamais été calculé lors du processus LOOCV!
- Est-ce le modèle qui a le moins d'erreur?