J'ai récemment commencé à utiliser la validation croisée par échantillonnage d'importance non lissée de Pareto (PSIS-LOO), décrite dans ces articles:
- Vehtari, A. et Gelman, A. (2015). Pareto a lissé l'échantillonnage d'importance. préimpression arXiv ( lien ).
- Vehtari, A., Gelman, A., et Gabry, J. (2016). Évaluation pratique du modèle bayésien à l'aide de la validation croisée avec sortie unique et WAIC. préimpression arXiv ( lien )
Cela représente une approche très attrayante de l'évaluation du modèle hors échantillon car elle permet d'effectuer LOO-CV avec une seule exécution MCMC, et elle est prétendument meilleure que les critères d'information existants tels que WAIC.
Le SIEP-LOO dispose d'un diagnostic pour vous dire si l'approximation est fiable, à savoir donnée par les exposants estimés des distributions de Pareto ajustées aux queues des distributions empiriques de poids d'importance (un poids par point de données). En bref, si un poids estimé , de mauvaises choses peuvent se produire.
Malheureusement, j'ai trouvé que dans mon application de cette méthode à mon problème, pour la majorité des modèles d'intérêt, je trouve qu'une grande partie du . Sans surprise, certaines des log-vraisemblances de LOO rapportées étaient manifestement absurdes (par rapport à d'autres ensembles de données). En tant que double vérification, j'ai effectué une validation croisée traditionnelle (et longue) en 10 fois, constatant qu'en effet dans le cas ci-dessus, PSIS-LOO donnait des résultats terriblement faux (à la hausse, les résultats étaient en très bon accord avec 10 -pli CV pour les modèles dans lesquels tous ). Pour mémoire, j'utilise l' implémentation MATLAB de PSIS-LOO par Aki Vehtari.
Peut-être que je suis très malchanceux dans la mesure où mon problème actuel et premier dans lequel j'applique cette méthode est "difficile" pour PSIS-LOO, mais je soupçonne que ce cas pourrait être relativement courant. Pour des cas comme le mien, le papier Vehtary, Gelman & Gabry dit simplement:
Même si l'estimation du SIEP a une variance finie, lorsque , l'utilisateur devrait envisager d'échantillonner directement à partir de pour la problématique , utiliser -fold cross- validation ou utiliser un modèle plus robuste.p(θde|y-i)ik
Ce sont des solutions évidentes mais pas vraiment idéales car elles prennent beaucoup de temps ou nécessitent un violon supplémentaire (j'apprécie que MCMC et l' évaluation du modèle sont toutes des violons, mais moins c'est mieux).
Y a-t-il une méthode générale que nous pouvons appliquer à l'avance pour essayer d' empêcher PSIS-LOO d'échouer? J'ai quelques idées provisoires, mais je me demande s'il existe déjà une solution empirique que les gens ont adoptée.