Déterminer la précision du modèle qui estime la probabilité d'un événement

Je modélise un événement avec deux résultats, a et b. J'ai créé un modèle qui estime la probabilité que a ou b se produise (c'est-à-dire que le modèle calculera que a se produira avec 40% de chance et b se produira avec 60% de chance).

J'ai un grand dossier de résultats d'essais avec les estimations du modèle. Je voudrais quantifier la précision avec laquelle le modèle utilise ces données - est-ce possible, et si oui, comment?

predictive-models scoring-rules

— Peter
source

Je me trompe peut-être, mais je pense que vous êtes intéressé par l'erreur de formation et / ou de test de votre modèle. Voir, par exemple: cs.ucla.edu/~falaki/pub/classification.pdf

— Stijn

@Stijn Il prédit cependant la probabilité plutôt que de le classer directement comme a ou b, donc je ne pense pas que ces mesures soient ce qu'il demande.

— Michael McGowan

Êtes-vous plus intéressé par la performance du modèle pour la classification (auquel cas le type d'analyse ROC et AUC semble le plus pertinent ( en.wikipedia.org/wiki/Receiver_operating_characteristic )? Ou êtes-vous plus intéressé à comprendre comment "calibré" les prédictions de probabilité sont (c.-à-d. P (Résultat = A) = 60% signifie vraiment 60%, ou juste ce résultat = A est plus probable que les autres résultats ...

— DavidR

Il semble que vous souhaitiez connaître le score de probabilité .

— whuber

Elvis, un article du numéro actuel de Decision Analysis a attiré mon attention sur la notation des probabilités. Il semble s'appuyer sur une littérature substantielle sur le sujet. (Je n'ai accès à rien de plus que le résumé, donc je ne peux pas commenter l'article lui-même.) Un article de couverture par les éditeurs de la revue (qui est disponible gratuitement ) mentionne un certain nombre d'articles précédents sur le même sujet.

— whuber

Supposons que votre modèle prédit en effet A a 40% de chances et B a 60% de chances. Dans certaines circonstances, vous souhaiterez peut-être convertir cela en une classification qui se produira B (car il est plus probable que A). Une fois convertie en classification, chaque prédiction est bonne ou mauvaise, et il existe un certain nombre de façons intéressantes de comptabiliser ces bonnes et mauvaises réponses. L'une est la précision directe (le pourcentage de bonnes réponses). D' autres comprennent la précision et le rappel ou F-mesure . Comme d'autres l'ont mentionné, vous voudrez peut-être regarder la courbe ROC . De plus, votre contexte peut fournir une matrice de coûts spécifique qui récompense les vrais positifs différemment des vrais négatifs et / ou pénalise les faux positifs différemment des faux négatifs.

Cependant, je ne pense pas que ce soit vraiment ce que vous recherchez. Si vous avez dit que B a 60% de chances de se produire et que j'ai dit que cela avait 99% de chances de se produire, nous avons des prédictions très différentes, même si elles seraient toutes deux mappées à B dans un système de classification simple. Si A se produit à la place, vous vous trompez juste pendant que je me trompe, alors j'espère que je recevrais une pénalité plus sévère que vous. Lorsque votre modèle produit réellement des probabilités, une règle de notation est une mesure des performances de vos prévisions de probabilité. Plus précisément, vous voulez probablement une règle de notation appropriée , ce qui signifie que le score est optimisé pour des résultats bien calibrés.

B S = \frac{1}{N} \sum_{t = 1}^{N} (F_{t} - o_{t})^{2}

$BS = \frac{1}{N}\sum\limits _{t=1}^{N}(f_t-o_t)^2$

f_{t}

$f_t$

o_{t}

$o_t$

Bien sûr, le type de règle de notation que vous choisissez peut dépendre du type d'événement que vous essayez de prévoir. Cependant, cela devrait vous donner quelques idées pour approfondir vos recherches.

J'ajouterai une mise en garde: peu importe ce que vous faites, lorsque vous évaluez votre modèle de cette façon, je vous suggère de regarder votre métrique sur des données hors échantillon (c'est-à-dire des données non utilisées pour construire votre modèle). Cela peut se faire par validation croisée . Peut-être plus simplement, vous pouvez construire votre modèle sur un ensemble de données, puis l'évaluer sur un autre (en faisant attention de ne pas laisser les inférences du déversement hors échantillon dans la modélisation dans l'échantillon).

— Michael McGowan
source