Il convient d'utiliser une règle de notation incorrecte lorsque le but est réellement la prévision, mais pas l'inférence. Je ne me soucie pas vraiment de savoir si un autre prévisionniste triche ou non quand je suis celui qui va faire les prévisions.
Des règles de notation appropriées garantissent que pendant le processus d'estimation, le modèle se rapproche du véritable processus de génération de données (DGP). Cela semble prometteur car à mesure que nous approchons du vrai DGP, nous allons également faire du bien en termes de prévision sous n'importe quelle fonction de perte. Le hic, c'est que la plupart du temps (en fait en réalité presque toujours) notre espace de recherche de modèle ne contient pas le vrai DGP. Nous finissons par approximer le vrai DGP avec une forme fonctionnelle que nous proposons.
Dans ce contexte plus réaliste, si notre tâche de prévision est plus facile que de déterminer la densité totale du vrai DGP, nous pouvons en fait faire mieux. Cela est particulièrement vrai pour la classification. Par exemple, le vrai DGP peut être très complexe mais la tâche de classification peut être très facile.
Yaroslav Bulatov a fourni l'exemple suivant dans son blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Comme vous pouvez le voir ci-dessous, la véritable densité est ondulante, mais il est très facile de créer un classificateur pour séparer les données générées par celui-ci en deux classes. Tout simplement si classe de sortie 1, et si classe de sortie 2.x≥0x<0
Au lieu de correspondre à la densité exacte ci-dessus, nous proposons le modèle brut ci-dessous, qui est assez loin du vrai DGP. Cependant, il fait un classement parfait. Ceci est trouvé en utilisant la perte de charnière, ce qui n'est pas approprié.
D'un autre côté, si vous décidez de trouver le vrai DGP avec perte de journal (ce qui est approprié), vous commencez à ajuster certaines fonctionnalités, car vous ne savez pas quelle forme fonctionnelle exacte vous avez besoin a priori. Mais alors que vous essayez de plus en plus de faire correspondre, vous commencez à classer les choses de manière erronée.
Notez que dans les deux cas, nous avons utilisé les mêmes formes fonctionnelles. Dans le cas d'une perte incorrecte, elle a dégénéré en une fonction échelonnée qui à son tour a fait une classification parfaite. Dans le cas approprié, il est devenu fou furieux d'essayer de satisfaire chaque région de la densité.
Fondamentalement, nous n'avons pas toujours besoin de réaliser le vrai modèle pour avoir des prévisions précises. Ou parfois, nous n'avons pas vraiment besoin de faire du bien sur tout le domaine de la densité, mais d'être très bons seulement sur certaines parties de celle-ci.