Une règle de notation est un moyen d'évaluer la supposition d'un agent des probabilités associées à un événement catégoriel, étant donné un résultat (catégorique) de l'événement. Selon la supposition et le résultat observé, la règle de notation attribue à l'agent un score (un nombre réel). Une règle de notation est censée attribuer des scores tels que, en moyenne, l'agent avec le moins de score fait les suppositions les plus précises. (Les conventions diffèrent selon que les règles de notation sont formulées en termes de minimisation ou de maximisation. Ici, je prends la vue de minimisation.)
Une propriété importante des règles de notation est de savoir si elles sont une règle de notation appropriée; c'est-à-dire, s'ils donnent le moins de score moyen lorsqu'un agent devine les vraies probabilités (ou, dans un cadrage bayésien subjectif, ils donnent le score moyen le moins postérieur, étant donné les propres priorités de l'agent, lorsqu'un agent utilise ses propres degrés de croyance comme ses suppositions). Dans le cas d'un événement binaire, l'erreur quadratique de 0 ou 1 (le score de Brier) est une règle de notation appropriée, contrairement à l'erreur absolue. Pourquoi? Eh bien, le critère de propreté est basé sur la moyenne, et la moyenne est la mesure de la tendance centrale qui minimise la somme des différences au carré, mais n'a pas besoin de minimiser l'erreur absolue.
Cette ligne de pensée suggère que si nous remplaçons la moyenne dans la définition d'une règle de notation appropriée par une autre fonction statistique, telle que la médiane, nous obtiendrons alors une sorte de famille riche de règles de notation appropriées. Il n'est pas déraisonnable d'imaginer une situation où un agent souhaite minimiser son score médian plutôt que son score moyen. En fait, il semble qu'il n'y ait pas de règles de notation à médiane non triviale. Si l'on considère à nouveau le cas d'un événement binaire, si la vraie probabilité est inférieure à 1/2, le score médian d'un agent sera égal au score attribué à l'agent lorsque l'événement ne se produit pas, quel que soit l'événement. probabilité exacte. Des manigances analogues semblent se produire si nous remplaçons la moyenne par, disons, la moyenne géométrique.
Alors, y a-t-il un sentiment que pour que la théorie des règles de notation appropriées fonctionne comme prévu, la fonction statistique doit être la moyenne?
Je me rends compte que c'est une question vague, et la meilleure réponse est probablement d'expliquer pourquoi la question n'a pas vraiment de sens, alors voici le contexte dans lequel je me pose la question, pour vous aider à ne pas me confondre. Je suis psychologue de la prise de décision, et je me retrouve souvent à vouloir quantifier la performance (soit la performance prédictive, sous validation croisée, ou l'ajustement de modèle post-hoc) d'un modèle qui crache des probabilités de ce que les gens choisiront dans un scénario de décision binaire. La discussion ci-dessus suggère que je devrais utiliser une règle de notation appropriée. Chose ennuyeuse, les règles de notation appropriées ne sont pas à la même échelle que les probabilités. Je me retrouve à vouloir, par exemple, prendre la racine carrée de l'erreur quadratique moyenne plutôt que de simplement regarder l'erreur quadratique moyenne (c'est-à-dire le score Brier moyen), mais dans le cas d'un essai, le RMSE est équivalent à l'erreur absolue, ce qui n'est pas correct, alors ne penserais-je pas alors que les modèles moins précis sont meilleurs? Évidemment, je ne peux pas simplement changer ma méthode d'évaluation des règles de notation d'une en termes de moyens à une en termes, par exemple, de médianes. Dois-je simplement me familiariser avec l'échelle de l'une des règles de notation appropriées habituelles, ou utiliser une statistique de détection de signal comme une zone sous la courbe ROC ou d '?
Une complication supplémentaire est que, pour une étude, je regarde des ajustements de modèle paramétrés par bootstrap, conformément à Wagenmakers, Ratcliff, Gomez et Iverson (2004), ce qui signifie que je regarde des diagrammes de densité de scores plutôt que des scores individuels. Ensuite, il est encore moins clair si je dois m'inquiéter de la propreté ou d'un critère analogue.
Modifier: consultez ce fil de commentaires sur Reddit pour plus de discussion.
Wagenmakers, E.-J., Ratcliff, R., Gomez, P., et Iverson, GJ (2004). Évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004