En tant que chimiste (analytique) , je rencontre les deux approches: le calcul analytique des valeurs de mérite [principalement pour la régression univariée] ainsi que la mesure directe des figures prédictives de mérite.
Le fractionnement train / test est pour moi le "petit frère" d'une expérience de validation pour mesurer la qualité des prédictions.
Longue réponse:
Les expériences typiques que nous faisons par exemple en chimie physique de premier cycle utilisent une régression univariée. Les propriétés d'intérêt sont souvent les paramètres du modèle, par exemple la constante de temps lors de la mesure de la cinétique de réaction, mais parfois aussi les prévisions (par exemple l'étalonnage linéaire univarié pour prédire / mesurer une valeur d'intérêt).
Ces situations sont très bénignes en termes de non surajustement: il y a généralement un nombre confortable de degrés de liberté après que tous les paramètres ont été estimés, et ils sont utilisés pour former (comme dans l'éducation) les élèves avec une confiance classique ou un calcul d'intervalle de prédiction, et une erreur classique propagation - ils ont été développés pour ces situations. Et même si la situation n'est pas entièrement semblable à un manuel (par exemple, j'ai une structure dans mes données, par exemple dans la cinétique, je m'attends à ce que les données soient mieux décrites par la variance entre les cycles de la réaction + la variance entre les mesures dans un cycle plutôt que par un approche à une seule variance), je peux généralement avoir suffisamment d'exécutions de l'expérience pour obtenir des résultats utiles.
Cependant, dans ma vie professionnelle, je m'occupe d'ensembles de données spectroscopiques (typiquement 100s à 1000s de variables ) et en plus d'ensembles assez limités de cas indépendants (échantillons) . Souvent , nous utilisons donc une régularisation dont il n'est pas toujours facile de dire combien de degrés de liberté nous utilisons, et en plus nous essayons de compenser au moins quelque peu le petit en utilisant un (grand) nombre de mesures presque répétées - ce qui nous laisse avec un efficace inconnu . Sans connaître oupnn<pnnndf, les approches classiques ne fonctionnent pas. Mais comme je fais surtout des prédictions, j'ai toujours une possibilité très directe de mesurer la capacité prédictive de mon modèle: je fais des prédictions et je les compare aux valeurs de référence.
Cette approche est en fait très puissante (bien que coûteuse en raison de l'effort expérimental accru), car elle me permet de sonder la qualité prédictive également pour des conditions qui n'étaient pas couvertes par les données d'entraînement / d'étalonnage. Par exemple, je peux mesurer la détérioration de la qualité prédictive avec l'extrapolation (l'extrapolation inclut également, par exemple, des mesures effectuées, disons, un mois après l'acquisition des données d'entraînement), je peux tester la robustesse contre des facteurs de confusion que je pense importants, etc. En d'autres termes , nous pouvons étudier le comportement de notre modèle comme nous étudions le comportement de tout autre système: nous sondons certains points, ou le perturbons et observons le changement dans la réponse du système, etc.
Je dirais que plus la qualité prédictive est importante (et plus le risque de sur-ajustement est élevé), plus nous avons tendance à préférer des mesures directes de la qualité prédictive plutôt que des nombres dérivés analytiquement. (Bien sûr, nous aurions pu inclure tous ces facteurs de confusion également dans la conception de l'expérience de formation). Certains domaines tels que le diagnostic médical exigent que des études de validation appropriées soient effectuées avant que le modèle ne soit «lâché» sur de vrais patients.
Le fractionnement train / test (qu'il s'agisse de validation *, de validation croisée ou de bootstrap ou ...) facilite cette étape. Nous sauvegardons l'expérience supplémentaire et n'extrapolons pas (nous généralisons uniquement pour prédire des cas indépendants inconnus de la même distribution des données d'entraînement). Je décrirais cela comme une vérification plutôt qu'une validation (bien que la validation soit profondément ancrée dans la terminologie ici). C'est souvent la voie à suivre pragmatique s'il n'y a pas d'exigences trop élevées sur la précision des chiffres du mérite (il n'est peut-être pas nécessaire de les connaître très précisément dans un scénario de preuve de concept).
* ne confondez pas une seule division aléatoire en train et test avec une étude correctement conçue pour mesurer la qualité des prévisions.