Je fais face à un problème de détection de fraude (de type notation de crédit). En tant que tel, il existe une relation très déséquilibrée entre les observations frauduleuses et non frauduleuses.
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html fournit un excellent aperçu des différentes métriques de classification. Precision and Recall
ou les kappa
deux semblent être un bon choix:
Une façon de justifier les résultats de ces classificateurs est de les comparer à ceux des classificateurs de base et de montrer qu'ils sont en effet meilleurs que les prédictions aléatoires.
Autant que je sache, kappa
pourrait être le meilleur choix ici, car le hasard est pris en compte. D'après le kappa de Cohen en anglais simple, je comprends qu'il kappa
s'agit du concept de gain d'information:
[...] une précision observée de 80% est beaucoup moins impressionnante avec une précision attendue de 75% contre une précision attendue de 50% [...]
Par conséquent, mes questions seraient les suivantes:
- Est-il correct de supposer
kappa
être une mesure de classification mieux adaptée à ce problème? - La simple utilisation
kappa
empêche-t-elle les effets négatifs du déséquilibre sur l'algorithme de classification? Un rééchantillonnage (bas / haut) ou un apprentissage basé sur les coûts (voir http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) sont-ils toujours requis?