Supposons que votre modèle prédit en effet A a 40% de chances et B a 60% de chances. Dans certaines circonstances, vous souhaiterez peut-être convertir cela en une classification qui se produira B (car il est plus probable que A). Une fois convertie en classification, chaque prédiction est bonne ou mauvaise, et il existe un certain nombre de façons intéressantes de comptabiliser ces bonnes et mauvaises réponses. L'une est la précision directe (le pourcentage de bonnes réponses). D' autres comprennent la précision et le rappel ou F-mesure . Comme d'autres l'ont mentionné, vous voudrez peut-être regarder la courbe ROC . De plus, votre contexte peut fournir une matrice de coûts spécifique qui récompense les vrais positifs différemment des vrais négatifs et / ou pénalise les faux positifs différemment des faux négatifs.
Cependant, je ne pense pas que ce soit vraiment ce que vous recherchez. Si vous avez dit que B a 60% de chances de se produire et que j'ai dit que cela avait 99% de chances de se produire, nous avons des prédictions très différentes, même si elles seraient toutes deux mappées à B dans un système de classification simple. Si A se produit à la place, vous vous trompez juste pendant que je me trompe, alors j'espère que je recevrais une pénalité plus sévère que vous. Lorsque votre modèle produit réellement des probabilités, une règle de notation est une mesure des performances de vos prévisions de probabilité. Plus précisément, vous voulez probablement une règle de notation appropriée , ce qui signifie que le score est optimisé pour des résultats bien calibrés.
B S= 1N∑t = 1N( ft- ot)2
Ftot
Bien sûr, le type de règle de notation que vous choisissez peut dépendre du type d'événement que vous essayez de prévoir. Cependant, cela devrait vous donner quelques idées pour approfondir vos recherches.
J'ajouterai une mise en garde: peu importe ce que vous faites, lorsque vous évaluez votre modèle de cette façon, je vous suggère de regarder votre métrique sur des données hors échantillon (c'est-à-dire des données non utilisées pour construire votre modèle). Cela peut se faire par validation croisée . Peut-être plus simplement, vous pouvez construire votre modèle sur un ensemble de données, puis l'évaluer sur un autre (en faisant attention de ne pas laisser les inférences du déversement hors échantillon dans la modélisation dans l'échantillon).