Pour commencer, je dirais qu'il est généralement bon de se méfier des déclarations qu'il n'y a que l' unfaçon de faire quelque chose. Le fractionnement d'un échantillon obtenu en un ensemble de données de «formation» et de «test» est une approche courante dans de nombreuses applications d'apprentissage automatique / science des données. Souvent, ces approches de modélisation sont moins intéressées par les tests d'hypothèses sur un processus de génération de données sous-jacent, c'est-à-dire qu'elles ont tendance à être quelque peu théoriques. En fait, la plupart de ces types de divisions formation / test veulent simplement voir si le modèle est trop adapté en termes de performances prédictives. Bien sûr, il est également possible d'utiliser une approche de formation / test pour voir si un modèle donné se réplique en termes de paramètres «significatifs», ou pour voir si les estimations des paramètres se situent dans les plages attendues dans les deux cas.
En théorie, valider ou invalider des modèles est ce que la science, en gros, est censée faire. Des chercheurs indépendants, examinant, générant et testant séparément des hypothèses qui soutiennent ou réfutent les arguments sur une théorie pour expliquer pourquoi ou dans quelles circonstances un phénomène observable se produit - c'est l'entreprise scientifique en un mot (ou au moins dans une phrase trop longue). Donc, pour répondre à votre question, pour moi, même les divisions formation / test ne "valident" pas un modèle. C'est quelque chose qui prend le poids d'années de preuves amassées par plusieurs chercheurs indépendants étudiant le même ensemble de phénomènes. Cependant, je vais admettre que cette prise de vue peut être quelque chose d'une différence dans la sémantique sur ce que je considère comme la validation du modèle par rapport à ce que le terme validation a fini par signifier dans les paramètres appliqués ...
Selon vos données et votre approche de modélisation, il peut ne pas toujours être approprié d'un point de vue statistique de diviser votre échantillon en ensembles de formation et de test. Par exemple, de petits échantillons peuvent être particulièrement difficiles à appliquer à cette approche. De plus, certaines distributions peuvent avoir certaines propriétés qui les rendent difficiles à modéliser même avec des échantillons relativement gros. Votre coque gonflée à zéro correspond probablement à cette dernière description. Si le but est d'obtenir une approximation de la «vérité» sur un ensemble de relations ou de processus sous-jacents censés expliquer un phénomène, vous ne serez pas bien servi en adoptant sciemment une approche sous-alimentée pour tester une hypothèse donnée. Alors peut-être que la première étape consiste à effectuer une analyse de puissance pour voir si vous seriez même susceptible de reproduire la constatation d'intérêt dans vos données sous-définies.
Une autre option consiste à spécifier plusieurs modèles pour voir s'ils "mieux" expliquent les données observées. Le but ici serait d'identifier le meilleur modèle parmi un ensemble d'alternatives raisonnables. Il s'agit d'un argument relatif, et non absolu, que vous feriez au sujet de votre modèle. Essentiellement, vous admettez qu'il peut y avoir d'autres modèles qui pourraient être proposés pour expliquer vos données, mais votre modèle est le meilleur de l'ensemble testé d'alternatives (du moins vous l'espérez). Tous les modèles de l'ensemble, y compris votre modèle hypothétique, doivent être théoriquement fondés; sinon, vous courez le risque de créer un groupe d'hommes de paille statistiques.
Il existe également des facteurs Bayes dans lesquels vous pouvez calculer le poids des preuves fournies par votre modèle, compte tenu de vos données, pour une hypothèse spécifique relative à des scénarios alternatifs.
C'est loin d'être une liste exhaustive d'options, mais j'espère que cela aide. Je vais quitter la boîte à savon maintenant. N'oubliez pas que chaque modèle de chaque étude publiée sur le comportement humain est incorrect. Il y a presque toujours des variables omises pertinentes, des interactions non modélisées, des populations imparfaitement échantillonnées et juste une vieille erreur d'échantillonnage en jeu obscurcissant la vérité sous-jacente.