Contexte: Il y a ici d'excellentes questions / réponses sur la façon d'étalonner les modèles qui prédisent les probabilités qu'un résultat se produise. Par exemple
- Le score de Brier et sa décomposition en résolution, incertitude et fiabilité .
- Tracés d'étalonnage et régression isotonique .
Ces méthodes nécessitent souvent l'utilisation d'une méthode de binning sur les probabilités prédites, afin que le comportement du résultat (0, 1) soit lissé sur le bin en prenant le résultat moyen.
Problème: Cependant, je ne trouve rien qui m'indique comment choisir la largeur du bac.
Question: Comment choisir la largeur de bac optimale?
Tentative: deux largeurs de bacs couramment utilisées semblent être:
- Regroupement de largeur égale, par exemple 10 casiers couvrant chacun 10% de l'intervalle [0, 1].
- La méthode de binning de Tukey discutée ici .
Mais ces choix de bacs sont-ils les plus optimaux si l'on était intéressé à trouver des intervalles dans les probabilités prédites les plus mal calibrés?