La validation croisée serait probablement bonne ici. Pour ce faire, vous divisez votre ensemble de données en 2 parties. Vous utilisez la première pièce pour ajuster les deux modèles, puis utilisez le modèle ajusté pour prédire la deuxième pièce. Cela peut être justifié comme une approximation d'une approche entièrement bayésienne de la sélection des modèles. Nous avons la probabilité d'un modèleMi
p(d1d2...dN|MiI)=p(d1|MiI)×p(d2|d1MiI)×p(d3|d1d2MiI)×..
..×p(dN|d1d2...dN−1MiI)
Ce qui peut être vu heuristiquement comme une séquence de prédictions, puis d'apprentissage des erreurs. Vous prédisez le premier point de données sans formation. Ensuite, vous prédisez le deuxième point de données après avoir découvert le modèle avec le premier. Vous prédisez ensuite le 3e point de données après avoir utilisé les deux premiers pour en savoir plus sur le modèle, etc. Maintenant, si vous avez un ensemble de données suffisamment grand, les paramètres du modèle deviendront bien déterminés au-delà d'une certaine quantité de données, et nous aurons, pour une certaine valeurk:
p(dk+2|d1....dkdk+1MiI)≈p(dk+2|d1....dkMiI)
Le modèle ne peut plus "apprendre" les paramètres et il ne fait que prédire sur la base du premier kobservations. Je choisirais donck (la taille du premier groupe) pour être suffisamment grand pour que vous puissiez ajuster avec précision le modèle, 20-30les points de données par paramètre sont probablement suffisants. Vous souhaitez également choisirk assez grand pour que la dépendance de la dk+1...dN qui est ignoré ne rend pas l'approximation inutile.
Ensuite, j'évaluerais simplement les probabilités de chaque prédiction et prendrais leur rapport, interprété comme un rapport de vraisemblance. Si le rapport est d'environ1, alors aucun des deux modèles n'est particulièrement meilleur que l'autre. S'il est loin de1cela indique alors que l'un des modèles surpasse l'autre. un ratio inférieur à 5 est faible, 10 est fort, 20 très fort et 100, décisif (réciproque correspondante pour les petits nombres).