J'ai donc répondu à la question sur le sur-ajustement à laquelle vous faites référence et j'ai regardé la vidéo et lu le billet de blog. Radford Neal ne dit pas que les modèles bayésiens ne sont pas trop ajustés. Souvenons-nous que le sur-ajustement est le phénomène du bruit traité comme signal et intégré à l'estimation des paramètres. Ce n'est pas la seule source d'erreur de sélection de modèle. La discussion de Neal est plus large mais en s'aventurant dans l'idée d'une petite taille d'échantillon, il s'est aventuré dans la discussion du sur-ajustement.
Permettez-moi de réviser partiellement mon message précédent selon lequel les modèles bayésiens peuvent s'adapter à tous les modèles bayésiens, mais le faire d'une manière qui améliore la prédiction. Encore une fois, pour revenir à la définition du signal confondant avec le bruit, l'incertitude dans les méthodes bayésiennes, la distribution postérieure, est la quantification de cette incertitude quant à ce qu'est le signal et ce qu'est le bruit. Ce faisant, les méthodes bayésiennes injectent du bruit dans les estimations du signal, car l'ensemble postérieur est utilisé pour l'inférence et la prévision. Le sur-ajustement et d'autres sources d'erreur de classification du modèle est un type de problème différent dans les méthodes bayésiennes.
Pour simplifier, adoptons la structure du discours de Ma et concentrons-nous sur la régression linéaire et évitons la discussion d'apprentissage en profondeur car, comme il le souligne, les méthodes alternatives qu'il mentionne ne sont que des compositions de fonctions et il existe un lien direct entre la logique du linéaire régression et apprentissage en profondeur.
y= β0+ β1X1+ β2X2+ β3X3.
Nn1, n2n1n2
m1…8
y= β0+ β1X1+ β2X2+ β3X3,
y= β0,
y= β0+ β1X1,
y= β0+ β2X2,
y= β0+ β3X3,
y= β0+ β1X1+ β2X2,
y= β0+ β1X1+ β3X3,
y=β0+β2X2+β3X3,
y= β0+ β1X1,
y= β0+ β2X2,
y= β0+ β3X3.
n1,
Pour donner un exemple concret, j'ai testé 78 modèles de faillite. Sur les 78 modèles, la probabilité combinée postérieure de 76 d'entre eux était d'environ un dix-millième d'un pour cent. Les deux autres modèles étaient respectivement d'environ 54% et 46%. Heureusement, ils ne partageaient également aucune variable. Cela m'a permis de sélectionner les deux modèles et d'ignorer les 76 autres. Lorsque j'ai eu tous les points de données pour les deux, j'ai fait la moyenne de leurs prédictions en fonction des probabilités postérieures des deux modèles, en utilisant un seul modèle lorsque j'avais des points de données manquants qui empêchaient la autre. Bien que j'aie eu un ensemble d'entraînement et un ensemble de validation, ce n'était pas pour la même raison qu'un Frequentist les aurait. De plus, à la fin de chaque journée sur deux cycles économiques, j'ai mis à jour mes postérieurs avec les données de chaque jour. Cela signifiait que mon modèle à la fin de l'ensemble de validation n'était pas le modèle à la fin de l'ensemble de formation. Les modèles bayésiens n'arrêtent pas d'apprendre, contrairement aux modèles fréquentistes.
y= β0+ β1X1+ β2X2+ β3X3.
y= β0+ β1X1+ β3X3.
nje2
Les modèles sont des paramètres de la pensée bayésienne et en tant que tels, ils sont aléatoires ou, si vous préférez, incertains. Cette incertitude ne s'arrête pas lors du processus de validation. Il est continuellement mis à jour.
En raison des différences entre les méthodes bayésienne et fréquentiste, il existe d'autres types de cas qui doivent également être pris en considération. Le premier provient de l'inférence des paramètres, le second des prédictions formelles. Ce n'est pas la même chose dans les méthodes bayésiennes. Les méthodes bayésiennes séparent formellement l'inférence et la prise de décision. Ils séparent également l'estimation et la prévision des paramètres.
σ2^< k
kn2n1
n1n1n2n2
n1Pr ( x~= k | X )X~Xθ ? Bien qu'il existe des systèmes de prédiction Frequentist, la plupart des gens traitent les estimations ponctuelles comme les vrais paramètres et calculent les résidus. Les méthodes bayésiennes attribueraient un score à chaque prédiction par rapport à la densité prévue plutôt qu'à un seul point. Ces prédictions ne dépendent pas de paramètres différents des méthodes ponctuelles utilisées dans les solutions Frequentist.
n1+ n2> n1
S'il n'y a pas d'informations préalables significatives et si des densités prédictives fréquencistes sont utilisées plutôt que des estimations ponctuelles, alors pour un échantillon fixe, les résultats des méthodes bayésienne et fréquenciste seront identiques si un seul modèle est choisi. S'il existe des informations préalables, la méthode bayésienne aura tendance à générer des prédictions plus précises. Cette différence peut être très importante en pratique. De plus, s'il existe une moyenne du modèle, il est fort probable que la méthode bayésienne sera plus robuste. Si vous utilisez la sélection de modèle et figez les prédictions bayésiennes, il n'y a aucune différence à utiliser un modèle Frequentist utilisant des prédictions Frequentist.
J'ai utilisé un ensemble de test et de validation car mes données n'étaient pas échangeables. En conséquence, je devais résoudre deux problèmes. Le premier est similaire au rodage dans les méthodes MCMC. J'avais besoin d'un bon ensemble d'estimations de paramètres pour démarrer ma séquence de test, et j'ai donc utilisé cinquante ans de données antérieures pour obtenir une bonne densité antérieure pour commencer mon test de validation. Le deuxième problème était que j'avais besoin d'une certaine forme de période normalisée pour tester afin que le test ne soit pas remis en question. J'ai utilisé les deux cycles économiques antérieurs datés par NBER.