Est-ce toujours une bonne idée de s'entraîner avec l'ensemble de données complet après validation croisée ? En d'autres termes, est-il possible de s'entraîner avec tous les échantillons de mon jeu de données sans pouvoir vérifier si cet ajustement est trop important ?
Quelques informations sur le problème:
Disons que j'ai une famille de modèles paramétrés par . Dites aussi que j'ai un ensemble de points de données et que je sélectionne le modèle avec une validation croisée du pli k pour choisir le modèle qui généralise le mieux les données. N
Pour la sélection de modèle, je peux effectuer une recherche (par exemple, une recherche dans une grille) sur , par exemple en exécutant une validation croisée par k-fold pour chaque candidat. Dans chacun des plis de la validation croisée, je me retrouve avec le modèle appris . βα
Le point de validation croisée est que, pour chacun de ces replis, je peux vérifier si le modèle appris a surajusté, en le testant sur des "données invisibles". En fonction des résultats, je pouvais choisir le modèle appris pour les paramètres généralisés lors de la validation croisée dans la recherche par grille.→ α meilleur
Maintenant, supposons qu'après la sélection du modèle , j'aimerais utiliser tous les points de mon jeu de données et, espérons-le, apprendre un meilleur modèle. Pour cela, je pourrais utiliser les paramètres correspondant au modèle que j'ai choisi lors de la sélection du modèle, puis après une formation sur l'ensemble de données complet, je voudrais obtenir un nouveau modèle appris . Le problème est que, si j'utilise tous les points de mon jeu de données pour la formation, je ne peux pas vérifier si ce nouveau modèle appris surafinit sur des données invisibles. Quelle est la bonne façon de réfléchir à ce problème?→ alpha b e s t β f u l l β f u l l