Bien que les deux mesures statistiques soient probablement corrélées, elles mesurent différentes qualités du classificateur.
AUROC
L'aire sous la courbe (AUC) est égale à la probabilité qu'un classificateur classe une instance positive choisie au hasard plus haut qu'un exemple négatif choisi au hasard. Il mesure l'habileté des classificateurs à classer un ensemble de modèles en fonction du degré auquel ils appartiennent à la classe positive, mais sans affecter réellement des modèles aux classes.
La précision globale dépend également de la capacité du classificateur à classer les modèles, mais également de sa capacité à sélectionner un seuil dans le classement utilisé pour attribuer des modèles à la classe positive si elle est supérieure au seuil et à la classe négative si elle est inférieure.
Ainsi, le classificateur avec la statistique AUROC la plus élevée (toutes choses étant égales par ailleurs) est également susceptible d'avoir une précision globale plus élevée car le classement des modèles (que l'AUROC mesure) est bénéfique à la fois pour l'AUROC et pour la précision globale. Cependant, si un classificateur classe bien les motifs, mais sélectionne mal le seuil, il peut avoir un AUROC élevé mais une précision globale médiocre.
Utilisation pratique
Dans la pratique, j'aime collecter la précision globale, l'AUROC et si le classificateur estime la probabilité d'appartenance à la classe, l'entropie croisée ou les informations prédictives. Ensuite, j'ai une métrique qui mesure sa capacité brute à effectuer une classification difficile (en supposant que les coûts de classification erronée faux positifs et faux négatifs sont égaux et que les fréquences de classe dans l'échantillon sont les mêmes que celles utilisées en fonctionnement - une grande hypothèse!), une métrique qui mesure la capacité de classer les modèles et une métrique qui mesure à quel point le classement est calibré en tant que probabilité.
Pour de nombreuses tâches, les coûts de classification erronée opérationnelle sont inconnus ou variables, ou les fréquences de classe opérationnelle sont différentes de celles de l'échantillon de formation ou sont variables. Dans ce cas, la précision globale est souvent assez dénuée de sens et l'AUROC est un meilleur indicateur de performance et, idéalement, nous voulons un classificateur qui génère des probabilités bien calibrées, afin que nous puissions compenser ces problèmes en utilisation opérationnelle. La métrique qui est importante dépend essentiellement du problème que nous essayons de résoudre.