L'AIC et la statistique c tentent de répondre à différentes questions. (De plus, certains problèmes avec la statistique c ont été soulevés ces dernières années, mais je vais y revenir en passant)
Grosso modo:
- L'AIC vous indique dans quelle mesure votre modèle convient à un coût de mauvaise classification spécifique .
- L'AUC vous indique dans quelle mesure votre modèle fonctionnerait, en moyenne, pour tous les coûts de mauvaise classification.
Lorsque vous calculez l'AIC, vous traitez votre logistique en donnant une prédiction de disons 0,9 comme une prédiction de 1 (c'est-à-dire plus probable 1 que 0), mais cela n'est pas nécessaire. Vous pouvez prendre votre score logistique et dire "tout ce qui est supérieur à 0,95 est égal à 1, tout ce qui est inférieur à 0". Pourquoi voudriez-vous faire cela? Eh bien, cela garantirait que vous ne prédisiez que lorsque vous êtes vraiment très confiant. Votre taux de faux positifs sera vraiment très bas, mais votre faux négatif montera en flèche. Dans certaines situations, ce n'est pas une mauvaise chose - si vous allez accuser quelqu'un de fraude, vous voulez probablement être vraiment très sûr en premier. De plus, s'il est très coûteux de suivre les résultats positifs, vous n'en voulez pas trop.
C'est pourquoi cela concerne les coûts. Il y a un coût lorsque vous classifiez un 1 comme 0 et un coût lorsque vous classifiez un 0 comme 1. Typiquement (en supposant que vous avez utilisé une configuration par défaut) l'AIC pour la régression logistique se réfère au cas spécial où les deux erreurs de classification sont également cher. C'est-à-dire que la régression logistique vous donne le meilleur nombre global de prédictions correctes, sans aucune préférence pour positive ou négative.
La courbe ROC est utilisée car elle trace le vrai positif contre le faux positif afin de montrer comment le classificateur fonctionnerait si vous l'utilisiez sous des exigences de coût différentes. La statistique c provient du fait que toute courbe ROC qui se situe strictement au-dessus d'une autre est clairement un classifieur dominant. Il est donc intuitif de mesurer l'aire sous la courbe pour mesurer la qualité globale du classificateur.
Donc, fondamentalement, si vous connaissez vos coûts lors du montage du modèle, utilisez AIC (ou similaire). Si vous construisez simplement un score, mais ne spécifiez pas le seuil de diagnostic, des approches AUC sont nécessaires (avec la mise en garde suivante concernant l'AUC elle-même).
Alors, quel est le problème avec la statistique c / AUC / Gini?
Pendant de nombreuses années, l'AUC a été l'approche standard et est toujours largement utilisée, mais elle présente un certain nombre de problèmes. Une chose qui le rendait particulièrement attrayant était qu'il correspond à un test de Wilcox sur les rangs des classifications. C'est-à-dire qu'il a mesuré la probabilité que le score d'un membre choisi au hasard d'une classe soit plus élevé qu'un membre choisi au hasard de l'autre classe. Le problème est que ce n'est presque jamais une mesure utile.
David Hand a publié les problèmes les plus critiques avec AUC il y a quelques années. (Voir les références ci-dessous) Le nœud du problème est que, bien que l'AUC fasse la moyenne de tous les coûts, parce que l'axe des x de la courbe ROC est le taux de faux positifs, le poids qu'il attribue aux différents régimes de coûts varie selon les classificateurs. Donc, si vous calculez l'ASC sur deux régressions logitiques différentes, il ne mesurera pas "la même chose" dans les deux cas. Cela signifie qu'il est peu logique de comparer des modèles basés sur l'AUC.
Hand a proposé un calcul alternatif en utilisant une pondération de coût fixe, et a appelé cela la mesure H - il y a un package en R appelé hmeasure
qui effectuera ce calcul, et je crois que l'AUC pour comparaison.
Quelques références sur les problèmes avec AUC:
Quand l'aire sous la courbe caractéristique de fonctionnement du récepteur est-elle une mesure appropriée des performances du classificateur? DJ Hand, C. Anagnostopoulos Lettres de reconnaissance de modèle 34 (2013) 492–495
(J'ai trouvé que c'était une explication particulièrement accessible et utile)