Supposons que je construis un classificateur de régression logistique qui prédit si quelqu'un est marié ou célibataire. (1 = marié, 0 = célibataire) Je veux choisir un point sur la courbe précision-rappel qui me donne au moins 75% de précision, donc je veux choisir les seuils et , de sorte que:
- Si la sortie de mon classificateur est supérieure à , je produis "marié".
- Si la sortie est inférieure à , je produis "single".
- Si la sortie est entre les deux, je produis "Je ne sais pas".
Quelques questions:
- Je pense que dans la définition standard de la précision, la précision mesurera la précision de la classe mariée seule (c.-à-d., Précision = # fois je prédis correctement marié / total # fois je prédis marié). Cependant, ce que je veux vraiment faire, c'est mesurer la précision globale (c.-à-d. Le nombre total de fois où je prédis correctement le mariage ou le célibataire / le nombre total de fois où je prédis le mariage ou le mariage) Est-ce une chose correcte à faire? Sinon, que dois-je faire?
- Existe-t-il un moyen de calculer cette courbe de précision / rappel "globale" dans R (par exemple, en utilisant le package ROCR ou une autre bibliothèque)? J'utilise actuellement le package ROCR, mais il ne semble me donner que la précision / le rappel d'une seule classe à la fois.