Je voudrais comparer 2 classificateurs différents pour un problème de classification de texte multiclasse qui utilise de grands ensembles de données d'apprentissage. Je doute que je devrais utiliser des courbes ROC ou des courbes d'apprentissage pour comparer les 2 classificateurs.
D'une part, les courbes d'apprentissage sont utiles pour décider de la taille de l'ensemble de données d'apprentissage, car vous pouvez trouver la taille de l'ensemble de données auquel le classificateur cesse d'apprendre (et peut-être se dégrade). Ainsi, le meilleur classificateur dans ce cas peut être celui qui atteint la plus grande précision avec la plus petite taille de jeu de données.
D'un autre côté, les courbes ROC vous permettent de trouver un point avec le bon compromis entre sensibilité / spécificité. Le meilleur classificateur dans ce cas est juste celui le plus proche de la partie supérieure gauche, avec le TPR le plus élevé pour tout FPR.
Dois-je utiliser les deux méthodes d'évaluation? Est-il possible pour une méthode avec une meilleure courbe d'apprentissage d'avoir une courbe ROC pire, et vice-versa?