Comment détecter si un processus gaussien est trop adapté?

J'entraîne un processus gaussien avec un noyau ARD avec beaucoup de paramètres en maximisant la lisibilité marginale des données, au lieu de la validation croisée.

Je soupçonne que c'est trop adapté. Comment puis-je tester cette suspicion dans un contexte bayésien?

machine-learning cross-validation gaussian-process

— nickponline
source

La chose la plus simple à faire serait d'adapter un processus gaussien à la fonction de covariance équivalente non ARD (généralement le RBF) et de comparer les taux d'erreur de test. Pour de nombreux problèmes, une fonction de covariance ARD fonctionne moins bien qu'une fonction de covariance non ARD en raison d'un sur-ajustement dans le réglage des hyper-paramètres. Comme la covariance RBF est un cas particulier de la covariance ARD, si la RBF fonctionne mieux, c'est une forte indication que le noyau ARD est sur-ajusté (commencez à optimiser les coefficients ARD aux valeurs optimales pour la covariance RBF correspondante, c'est plus rapide et contribue également à garantir que le problème de la covariance ARD n'est pas uniquement dû aux minima locaux dans la probabilité marginale). Il s'agit d'un problème beaucoup plus important que ce qui est généralement apprécié.

J'ai écrit quelques articles à ce sujet:

GC Cawley et NLC Talbot, Empêcher le sur-ajustement lors de la sélection du modèle via la régularisation bayésienne des hyper-paramètres, Journal of Machine Learning Research, volume 8, pages 841-861, avril 2007 ( pdf )

GC Cawley et NLC Talbot, Sur-ajustement dans la sélection des modèles et biais de sélection subséquent dans l'évaluation des performances, Journal of Machine Learning Research, 2010. Research, vol. 11, p. 2079-2107, juillet 2010 ( pdf )

La première comprend quelques expériences avec des GP, qui montrent que le sur-ajustement dans la sélection de modèle est également un problème pour les GP avec une sélection de modèle basée sur la maximisation de la probabilité marginale.

Une analyse plus approfondie consisterait à évaluer l'erreur de test du GP à chaque étape du processus d'optimisation de la probabilité marginale. Il est très probable que vous obtiendrez la marque classique du sur-ajustement, où le critère de sélection du modèle diminue de façon monotone, mais l'erreur de test diminue initialement, puis recommence à augmenter à mesure que le critère de sélection du modèle est suroptimisé (cf. Figure 2a dans l'article JMLR 2010).

— Dikran Marsupial
source

Cool merci - je lis le premier maintenant. Avez-vous trouvé un moyen plus efficace de régulariser à nouveau le sur-ajustement avec des noyaux avec de nombreux paramètres comme ARD si le terme de complexité du modèle dans la probabilité marginale n'est pas suffisant pour empêcher le sur-ajustement?

— nickponline

Je soupçonne que la chose la plus robuste à faire serait de marginaliser les hyper-paramètres en utilisant les méthodes de Markov Chain Monte Carlo. Pour la taille de l'ensemble de données que les généralistes ont tendance à utiliser (jusqu'à quelques milliers de modèles), je soupçonne qu'un sur-ajustement de la probabilité marginale est presque inévitable. L'optimisation à mon humble avis est la racine de tout mal dans les statistiques, chaque fois que vous optimisez tout ce que vous courez le risque de sur-ajustement. L'approche bayésienne est bien meilleure dans ce sens, mais vous courez plutôt le risque de difficultés car les prieurs sont faux :-(

— Dikran Marsupial

@DikranMarsupial Existe-t-il des recherches récentes sur la façon d'éviter le surapprentissage en utilisant les méthodes GP variationnelles?

— imsrgadich