Supposons que j'ai un modèle prédictif qui produit, pour chaque instance, une probabilité pour chaque classe. Je reconnais maintenant qu'il existe de nombreuses façons d'évaluer un tel modèle si je veux utiliser ces probabilités pour la classification (précision, rappel, etc.). Je reconnais également qu'une courbe ROC et l'aire sous-jacente peuvent être utilisées pour déterminer dans quelle mesure le modèle différencie les classes. Ce n'est pas ce que je demande.
Je souhaite évaluer l' étalonnage du modèle. Je sais qu'une règle de notation comme le score Brier peut être utile pour cette tâche. C'est OK, et je vais probablement incorporer quelque chose dans ce sens, mais je ne sais pas à quel point ces mesures seront intuitives pour le profane. Je cherche quelque chose de plus visuel. Je veux que la personne qui interprète les résultats puisse voir si oui ou non quand le modèle prédit quelque chose est 70% susceptible de se produire que cela se produit réellement ~ 70% du temps, etc.
J'ai entendu parler (mais jamais utilisé) de parcelles QQ , et au début, je pensais que c'était ce que je cherchais. Cependant, il semble que cela soit vraiment destiné à comparer deux distributions de probabilité . Ce n'est pas directement ce que j'ai. J'ai, pour un tas d'exemples, ma probabilité prédite et ensuite si l'événement s'est réellement produit:
Index P(Heads) Actual Result
1 .4 Heads
2 .3 Tails
3 .7 Heads
4 .65 Tails
... ... ...
Est-ce donc une intrigue QQ vraiment ce que je veux, ou je cherche autre chose? Si un tracé QQ est ce que je devrais utiliser, quelle est la bonne façon de transformer mes données en distributions de probabilité?
J'imagine que je pourrais trier les deux colonnes par probabilité prédite, puis créer des bacs. Est-ce le genre de chose que je devrais faire, ou suis-je en train de penser quelque part? Je connais diverses techniques de discrétisation, mais existe-t-il une manière spécifique de discrétiser dans les bacs qui est standard pour ce genre de chose?