Question : J'ai adapté un modèle probabiliste (réseau bayésien) pour modéliser une variable de résultat binaire. Je voudrais créer un tracé d'étalonnage haute résolution (par exemple spline) corrigé pour le sur-ajustement avec bootstrapping. Existe-t-il une procédure standard pour calculer une telle courbe?
Considérations : je pourrais le faire facilement avec le fractionnement train / test, mais je préfère ne pas jeter de données car j'ai moins de 20 000 échantillons. J'ai donc naturellement pensé au bootstrap. Je sais qu'une telle fonction (calibrer) est implémentée dans le package rms de Frank Harrell, mais malheureusement le modèle que j'utilise n'est pas pris en charge par le package.
Question bonus : est-il possible de recalibrer un modèle mal calibré avec bootstrap? La raison pour laquelle je pose cette question est que j'ai essayé de recalibrer un modèle en
- diviser les données en train / test
- modèle adapté à l'ensemble de train
- recalibrer le modèle au train (avec une spline cubique)
- évaluer l'étalonnage sur le banc d'essai
Les modèles recalibrés de la manière ci-dessus étaient parfaitement calibrés sur le train, mais pas tellement sur le test, ce qui indique probablement un sur-ajustement léger. J'ai également essayé de diviser davantage l'ensemble de test, en calibrant sur une division et en évaluant la calibration sur la deuxième division. J'ai obtenu de meilleurs résultats (toujours pas parfaitement calibrés), mais les ensembles sont devenus assez petits (~ 1000 échantillons) et donc le calibrage n'est pas fiable
reticulate
. Je pourrais implémenter la procédure moi-même si je le savais, mais je ne l'ai trouvée nulle part .. Je suppose que j'espère juste que le professeur Harrell verra cette question: D