Je pense qu'il vous manque encore quelque chose dans votre compréhension du but de la validation croisée.
Soyons clairs. En général, lorsque nous parlons de «modèle», nous nous référons à une méthode particulière pour décrire le lien entre certaines données d'entrée et ce que nous essayons de prédire. Nous ne faisons généralement pas référence à des exemples particuliers de cette méthode en tant que modèles différents. Donc, vous pourriez dire «j'ai un modèle de régression linéaire», mais vous n'appelleriez pas deux ensembles différents de modèles différents de coefficients formés. Du moins pas dans le contexte de la sélection du modèle.
Ainsi, lorsque vous effectuez une validation croisée des plis en K, vous testez dans quelle mesure votre modèle est capable de se former à l'aide de certaines données, puis vous prédisez des données qu'il n'a pas encore vues. Nous utilisons la validation croisée pour cela car si vous vous entraînez en utilisant toutes les données dont vous disposez, il ne vous en reste plus pour les tests. Vous pouvez le faire une fois, en utilisant 80% des données pour former et 20% pour tester, mais que se passe-t-il si les 20% que vous choisissez de tester contiennent un tas de points particulièrement faciles (ou particulièrement difficiles) prédire? Nous n'aurons pas fourni la meilleure estimation possible de la capacité des modèles à apprendre et à prévoir.
Nous voulons utiliser toutes les données. Donc, pour continuer l’exemple ci-dessus d’un partage 80/20, nous ferions une validation croisée par 5 en entraînant le modèle 5 fois sur 80% des données et en le testant à 20%. Nous nous assurons que chaque point de données se retrouve dans l'ensemble de test à 20% exactement une fois. Nous avons donc utilisé chaque point de données pour nous aider à comprendre dans quelle mesure notre modèle tire parti de l’expérience tirée de certaines données et de la prévision de nouvelles données.
Mais le but de la validation croisée n'est pas de proposer notre modèle final. Nous n'utilisons pas ces 5 instances de notre modèle formé pour effectuer une prévision réelle. Pour cela, nous voulons utiliser toutes les données, nous avons donc besoin du meilleur modèle possible. Le but de la validation croisée est la vérification du modèle, pas la construction du modèle.
Maintenant, disons que nous avons deux modèles, disons un modèle de régression linéaire et un réseau de neurones. Comment pouvons-nous dire quel modèle est le meilleur? Nous pouvons faire une validation croisée des plis en K et voir lequel s’avère le mieux pour prédire les points de réglage du test. Mais une fois que nous avons utilisé la validation croisée pour sélectionner le modèle le plus performant, nous formons ce modèle (que ce soit la régression linéaire ou le réseau de neurones) sur toutes les données. Nous n'utilisons pas les instances de modèle que nous avons formées lors de la validation croisée pour notre modèle prédictif final.
Notez qu'il existe une technique appelée agrégation par bootstrap (généralement abrégée en "empaquetage") qui utilise en quelque sorte les instances de modèle produites de manière similaire à la validation croisée pour construire un modèle d'ensemble, mais il s'agit d'une technique avancée dépassant le cadre. de votre question ici.