Application de la réponse d' Erik à celle de Michael :
Vous pouvez faire le même genre de réflexion auquel Erik fait référence lors du choix de la mesure de performance.
Je trouve utile de faire référence à différentes mesures de ce type par les questions auxquelles elles répondent (ici dans le langage de diagnostic médical que je connais le mieux - mais peut-être pouvez-vous simplement remplacer le patient par texte et la maladie par spam ;-)):
Sensibilité: étant donné que le patient a vraiment la maladie, quelle est la probabilité que le classificateur s'en rende compte?
Spécificité: étant donné que le patient n'a vraiment pas la maladie, quelle est la probabilité que le classificateur s'en rende compte?
Valeur prédictive positive: étant donné que le classificateur prétend que le patient est malade, quelle est la probabilité que le patient soit réellement atteint de la maladie?
Valeur prédictive négative: étant donné que le classificateur prétend que le patient n'est pas malade, quelle est la probabilité que le patient ne souffre pas vraiment de la maladie?
Comme vous le voyez, les valeurs prédictives sont ce qui intéresse vraiment les médecins et les patients. Cependant, presque tout le monde caractérise son classificateur par sa sensibilité et sa spécificité. La raison en est que les valeurs prédictives doivent tenir compte de la prévalence de la maladie, et cela peut varier énormément (ordres de grandeur!) Pour différents types de patients.
Plus sur le sujet de votre question:
Je parie que vous avez raison de vous inquiéter.
Prenant les deux scénarios d'Erik dans un exemple:
Voici les échantillons de test indépendants:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(notez que ce test était bilatéral, en supposant que les deux classificateurs auraient été publiés même si les résultats avaient été inversés ...)
Voici la meilleure situation possible: test apparié, et le nouveau classificateur convient à tous les échantillons, l'ancien a raison, plus 10 autres:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(La valeur de p reste inférieure à 0,05 magique tant que pas plus de 10 échantillons sur les 1000 ont été prédits différemment par les deux classificateurs).
Même si les valeurs de p sont la bonne réponse à la mauvaise question, il y a des indications que c'est un peu un endroit restreint.
Cependant, compte tenu de la pratique scientifique habituelle, c'est-à-dire qu'un nombre inconnu (non publié) de nouvelles fonctionnalités a été testé, et que seule celle qui fonctionnait légèrement mieux a été publiée, l'endroit devient encore plus restreint. Et puis, le classificateur à 80% pourrait bien être le successeur d'un classificateur à 79% ...
Si vous aimez lire l'allemand, il y a de très beaux livres de Beck-Bornhold et Dubben. Si je me souviens bien, Mit an Wahrscheinlichkeit grenzender Sicherheit a une très belle discussion sur ces problèmes. (Je ne sais pas s'il y a une édition anglaise, une traduction plutôt littérale du titre est "Avec une certitude à la limite de la probabilité")