Je ne suis pas sûr d'avoir compris la question, mais comme le titre demande d'expliquer les courbes ROC, je vais essayer.
Les courbes ROC sont utilisées pour voir dans quelle mesure votre classificateur peut séparer les exemples positifs et négatifs et pour identifier le meilleur seuil pour les séparer.
Pour pouvoir utiliser la courbe ROC, votre classificateur doit être classé - c'est-à-dire qu'il doit pouvoir classer les exemples de manière à ce que ceux dont le classement est le plus élevé ont plus de chances d'être positifs. Par exemple, la régression logistique génère des probabilités, qui sont un score que vous pouvez utiliser pour le classement.
Dessin de la courbe ROC
Étant donné un ensemble de données et un classificateur de classement:
- ordonner les exemples de test par le score du plus élevé au plus bas
- commencer dans(0,0)
- pour chaque exemple dans l'ordre de tri
x
- si est positif, déplacez vers le haut1 / posx1/pos
- si est négatif, déplacez droite1 / negx1/neg
où et sont les fractions des exemples positifs et négatifs respectivement.negposneg
Cette belle image animée gif devrait illustrer ce processus plus clairement
Sur ce graphique, l' axe est le taux de vrais positifs et l' axe est un taux de faux positifs. Notez la ligne diagonale - c'est la ligne de base, qui peut être obtenue avec un classificateur aléatoire. Plus notre courbe ROC est au-dessus de la ligne, mieux c'est.xyx
Zone sous ROC
La zone située sous la courbe ROC (ombrée) indique naturellement à quelle distance se situe la courbe par rapport à la ligne de base. Pour la ligne de base, la valeur est 0,5 et pour le classificateur parfait, la valeur 1.
Vous pouvez en savoir plus sur le RDC AUC dans cette question: Que signifie AUC et en quoi consiste-t-il?
Sélection du meilleur seuil
Je vais décrire brièvement le processus de sélection du meilleur seuil. Vous trouverez plus de détails dans la référence.
Pour sélectionner le meilleur seuil, vous voyez chaque point de votre courbe ROC comme un classificateur séparé. Ce mini-classificateur utilise le score obtenu par le point comme limite entre + et - (c’est-à-dire qu'il classe + tous les points au-dessus du point actuel)
En fonction de la fraction pos / neg de notre ensemble de données - parallèlement à la ligne de base dans le cas des 50% / 50% - vous créez des lignes de précision ISO et prenez celle-ci avec la meilleure précision.
Voici une photo qui illustre cela et pour plus de détails, je vous invite à nouveau à la référence
Référence