Réponse courte: Les deux techniques de validation impliquent la formation et le test d'un certain nombre de modèles.
Réponse longue sur la meilleure façon de le faire: cela dépend bien sûr. Mais voici quelques réflexions que j'utilise pour guider mes décisions concernant la validation du rééchantillonnage. Je suis chimiométriste, donc ces stratégies et les termes sont plus ou moins étroitement liés aux problèmes analytiques et chimiques.
Pour expliquer un peu mes pensées, je pense à la validation comme à la mesure de la qualité du modèle et à la formation comme à la mesure des paramètres du modèle - cela conduit à une analogie assez puissante avec tout autre type de mesure.
Il existe deux points de vue différents sur ces approches en matière de validation:
un point de vue traditionnel pour la validation du rééchantillonnage est le suivant: l'ensemble de données rééchantillonné (parfois appelé ensemble ou sous-ensemble de données de substitution) est pratiquement le même que l'ensemble de données d'origine (réel).
Par conséquent, un "modèle de substitution" ajusté à l'ensemble de données de substitution est pratiquement le même que l'ajustement de modèle avec l'ensemble de données réelles. Mais certains échantillons sont exclus de l'ensemble de données de substitution, le modèle est indépendant de ceux-ci. Ainsi, je prends ces échantillons laissés de côté ou hors bootstrap comme ensemble de validation indépendant pour le modèle de substitution et j'utilise le résultat comme approximation du modèle de données complet.
Cependant, le modèle de substitution n'est souvent pas vraiment équivalent au modèle de données complètes: moins d'échantillons ont été utilisés pour la formation (même pour le bootstrap, le nombre d'échantillons différents est moins). Tant que la courbe d'apprentissage augmente, le modèle de substitution est en moyenne un peu pire que le modèle de données complet. Il s'agit du biais pessimiste bien connu de la validation du rééchantillonnage (si vous vous retrouvez avec un biais optimiste, c'est généralement un indicateur que le jeu de test de gauche / sortie n'est pas indépendant du modèle).
Le deuxième point de vue est que l'ensemble de données rééchantillonné est une version perturbée de l'ensemble de données. L'examen de la façon dont les modèles de substitution (ou leurs prédictions pour les échantillons laissés pour compte / OOB) diffèrent du modèle à données entières indique ensuite quelque chose sur la stabilité du modèle par rapport aux données d'apprentissage.
De ce point de vue, les modèles de substitution ressemblent à des mesures répétées. Supposons que votre tâche consiste à mesurer le contenu de certains minéraux d'un train entier de minerai. Le minerai n'est pas homogène. Vous prenez donc des échantillons physiques de différents endroits, puis regardez le contenu global et sa variation à travers le train. De même, si vous pensez que votre modèle peut ne pas être stable, vous pouvez regarder les performances globales et la variation des modèles de substitution.
n
Je rééchantillonne généralement les cas, par exemple un cas = toutes les mesures d'un patient. Ensuite, tous les patients sortis du sac ne font l'objet d'aucune mesure dans les données d'entraînement. Ceci est utile si vous savez que les mesures d'un cas sont plus similaires les unes aux autres qu'aux mesures d'autres cas (ou du moins vous ne pouvez pas exclure cette possibilité).
Ce n'est pas que la validation du rééchantillonnage vous permet de mesurer les performances d' échantillons inconnus . Si, en plus, vous souhaitez mesurer les performances d' échantillons futurs inconnus (dérive instrumentale!), Vous avez besoin d'un ensemble de test qui est mesuré "dans le futur", c'est-à-dire un certain temps après que tous les échantillons d'apprentissage ont été mesurés. En chimie analytique, cela est nécessaire par exemple si vous voulez savoir à quelle fréquence vous devez refaire l'étalonnage de votre instrument (pour chaque détermination, quotidiennement, hebdomadairement, mensuellement, ...)
Bootstrap vs terminologie de validation croisée :
- le rééchantillonnage avec remplacement est souvent appelé bootstrap,
- rééchantillonnage sans validation croisée de remplacement.
Les deux peuvent avoir une sorte de stratification. Historiquement, le fractionnement pour la validation croisée (au moins en chimiométrie) a souvent été effectué de manière non aléatoire, par exemple une validation croisée en trois volets de la forme abcabc..abc (ensemble de données trié par rapport au résultat) pour l'étalonnage / régression si vous avez très peu de cas (échantillons physiques) et que vous voulez vous assurer que toute votre plage de données est couverte.
Les deux techniques sont généralement répétées / répétées plusieurs fois. Encore une fois pour des raisons historiques et au moins en chimiométrie, la validation croisée k-fold signifie souvent la formation et le test de k modèles (chacun testé avec le 1 / kème des données qui n'a pas été impliqué dans la formation). Si un tel fractionnement aléatoire se répète, les gens l'appellent validation croisée itérée ou répétée.
kknnn
- Notez que le bootstrap n'est pas approprié pour certaines techniques d'ajustement de modèle qui suppriment d'abord les mesures en double.
- Certaines variantes du bootstrap existent, par exemple .632-bootstrap et .632 + -bootstrap
kk