J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir sérieusement aux distributions antérieures qui peuvent être personnalisées en fonction des caractéristiques candidates, et ces priorités tireront le modèle vers elles (c.-à-d., Réaliser un rétrécissement / pénalisation / régularisation avec différentes quantités de pénalisation pour différentes caractéristiques prédictives ). Deuxièmement, la "vraie" voie bayésienne n'aboutit pas à un modèle unique mais on obtient une distribution postérieure entière pour une prédiction.
Compte tenu de ces caractéristiques bayésiennes, que signifie le sur-ajustement? Faut-il l'évaluer? Si c'est le cas, comment? Comment savoir quand un modèle bayésien est fiable pour une utilisation sur le terrain? Ou est-ce un point discutable puisque le postérieur emportera toutes les incertitudes de prudence lorsque nous utiliserons le modèle que nous avons développé pour la prédiction?
Comment la pensée changerait-elle si nous forçions le modèle bayésien à être distillé à un seul nombre, par exemple le risque moyen / mode / médian postérieur?
Je vois ici une réflexion connexe . Une discussion parallèle peut être trouvée ici .
Question de suivi :: si nous sommes entièrement bayésiens et que nous passons un peu de temps à penser aux priors avant de voir les données, et que nous adaptons un modèle où la vraisemblance des données a été spécifiée de manière appropriée, sommes-nous obligés d'être satisfaits de notre modèle en ce qui concerne le sur-ajustement ? Ou devons-nous faire ce que nous faisons dans le monde fréquentiste où un sujet choisi au hasard peut être bien prédit en moyenne, mais si nous choisissons un sujet qui a une prédiction très faible ou qui a une valeur prédite très élevée, il y aura une régression à la moyenne?