Quel est le nom de ce graphique montrant les taux positifs faux et vrais et comment est-il généré?


22

L'image ci-dessous montre une courbe continue des taux de faux positifs par rapport aux taux véritablement positifs:

entrez la description de l'image ici

Cependant, ce que je ne comprends pas immédiatement, c'est comment ces taux sont calculés. Si une méthode est appliquée à un ensemble de données, elle a un certain taux de FP et un certain taux de FN. Cela ne signifie-t-il pas que chaque méthode doit avoir un seul point plutôt qu'une courbe? Bien sûr, il existe plusieurs façons de configurer une méthode, produisant plusieurs points différents, mais je ne sais pas exactement comment il existe ce continuum de taux ou comment il est généré.


2
J'aimerais savoir d'où cela vient. Il semble prétendre que Baidu est 100% parfait (et meilleur que les gens) pour identifier / reconnaître les visages. Soit cela, soit il utilise les résultats de Baidu comme une vérité fondamentale plutôt que comme une catégorisation humaine, ce qui est aussi vraiment bizarre.
Arrêtez de nuire à Monica le


OK, ils ont mélangé les résultats de différentes expériences et arrondi leurs données source incorrectement. Baidu devrait être de 0,9977 ± 0,0006
Stop Harming Monica

2
Soit dit en passant, vous avez manqué que votre source ait la réponse: "Voir Wikipedia pour plus de détails sur la lecture de la courbe ROC."
Arrêtez de nuire à Monica le

2
@OrangeDog 0.9977 ± 0.0006 est la précision de Baidu à partir de la page de résultats LFW , pas AUC. C'est déroutant car la page de résultats LFW n'a pas d'en-tête pour la colonne d'où il vient. Cependant, leur papier arxiv v4 présente ce nombre comme la précision. J'ai calculé l'AUC sur leur courbe dans cette fonction . Même si l'AUC de 1.000 prête à confusion, je pense que ma technique est valide.
Brandon Amos

Réponses:


27

Le tracé est la courbe ROC et les points (taux de faux positifs, taux de vrais positifs) sont calculés pour différents seuils. En supposant que vous ayez une fonction d'utilité uniforme, la valeur de seuil optimale est celle du point le plus proche de (0, 1).


Ce type de courbe nécessite donc que la méthode ait un paramètre seuil relaxable?
Axoren

2
Oui, mais le seuil pourrait être beaucoup de choses, par exemple la probabilité logarithmique pour un modèle entraîné étant donné les données de test ou la distance à l'hyperplan de séparation pour un SVM.
Morten

1
Par exemple, la ligne diagonale est un algorithme de supposition aléatoire; le paramètre sera "avec quelle probabilité devinerons-nous VRAI?"
Arrêtez de nuire à Monica le

21

Pour générer des courbes ROC (= courbes caractéristiques de fonctionnement du récepteur):

Supposons que nous ayons un classificateur binaire probabiliste tel que la régression logistique. Avant de présenter la courbe ROC, le concept de matrice de confusion doit être compris. Lorsque nous faisons une prédiction binaire, il peut y avoir 4 types d'erreurs:

  • Nous prédisons 0 alors que nous devrions avoir la classe est en fait 0: c'est ce qu'on appelle un vrai négatif , c'est-à-dire que nous prédisons correctement que la classe est négative (0). Par exemple, un antivirus n'a pas détecté un fichier inoffensif comme un virus.
  • Nous prédisons 0 alors que nous devrions avoir la classe est en fait 1: cela s'appelle un faux négatif , c'est-à-dire que nous prédisons à tort que la classe est négative (0). Par exemple, un antivirus n'a pas réussi à détecter un virus.
  • Nous prédisons 1 alors que nous devrions avoir la classe est en fait 0: cela s'appelle un faux positif , c'est-à-dire que nous prédisons à tort que la classe est positive (1). Par exemple, un antivirus considéré comme un fichier inoffensif est un virus.
  • Nous prédisons 1 alors que nous devrions avoir la classe est en fait 1: c'est ce qu'on appelle un vrai positif , c'est-à-dire que nous prédisons correctement que la classe est positive (1). Par exemple, un antivirus a correctement détecté un virus.

Pour obtenir la matrice de confusion, nous passons en revue toutes les prédictions faites par le modèle et comptons combien de fois chacun de ces 4 types d'erreurs se produit:

entrez la description de l'image ici

Dans cet exemple de matrice de confusion, parmi les 50 points de données qui sont classés, 45 sont correctement classés et les 5 sont mal classés.

Étant donné que pour comparer deux modèles différents, il est souvent plus pratique d'avoir une seule métrique plutôt que plusieurs, nous calculons deux métriques à partir de la matrice de confusion, que nous combinerons plus tard en une seule:

  • TPTP+FN
  • FPFP+TN

0.00;0.01,0.02,,1.00

entrez la description de l'image ici

Sur cette figure, la zone bleue correspond à la zone sous la courbe de la caractéristique de fonctionnement du récepteur (AUROC). La ligne pointillée dans la diagonale nous présente la courbe ROC d'un prédicteur aléatoire: elle a un AUROC de 0,5. Le prédicteur aléatoire est couramment utilisé comme référence pour voir si le modèle est utile.

Si vous souhaitez acquérir une expérience de première main:


9

La réponse de Morten répond correctement à la question dans le titre - le chiffre est, en effet, une courbe ROC. Il est produit en traçant une séquence de taux de faux positifs (FPR) par rapport à leurs taux positifs réels correspondants.

Cependant, je voudrais répondre à la question que vous posez dans le corps de votre message.

Si une méthode est appliquée à un ensemble de données, elle a un certain taux de FP et un certain taux de FN. Cela ne signifie-t-il pas que chaque méthode doit avoir un seul point plutôt qu'une courbe? Bien sûr, il existe plusieurs façons de configurer une méthode, produisant plusieurs points différents, mais je ne sais pas exactement comment il existe ce continuum de taux ou comment il est généré.

De nombreuses méthodes d'apprentissage automatique ont des paramètres réglables. Par exemple, la sortie d'une régression logistique est une probabilité prédite d'appartenance à une classe. Une règle de décision pour classer tous les points avec des probabilités prédites au-dessus d'un certain seuil pour une classe, et le reste pour une autre, peut créer une gamme flexible de classificateurs, chacun avec des statistiques TPR et FPR différentes. La même chose peut être faite dans le cas de la forêt aléatoire, où l'on considère les votes des arbres, ou SVM, où vous considérez la distance signée de l'hyperplan.

Dans le cas où vous effectuez une validation croisée pour estimer les performances hors échantillon, la pratique typique consiste à utiliser les valeurs de prédiction (votes, probabilités, distances signées) pour générer une séquence de TPR et FPR. Cela ressemble généralement à une fonction pas à pas, car il n'y a généralement qu'un seul point passant de TP à FN ou FP à FN, à chaque valeur prédite (c'est-à-dire que toutes les valeurs prédites hors échantillon sont uniques). Dans ce cas, bien qu'il existe un continuum d' options pour calculer TPR et FPR, les fonctions TPR et FPR ne seront pas continues car il n'y a qu'un nombre fini de points hors échantillon, de sorte que les courbes résultantes auront une apparence pas à pas .


0

De Wikipédia:

La courbe ROC a été développée pour la première fois par des ingénieurs électriciens et des ingénieurs radar pendant la Seconde Guerre mondiale pour détecter des objets ennemis sur les champs de bataille et a rapidement été introduite en psychologie pour tenir compte de la détection perceptuelle des stimuli. Depuis, l'analyse ROC est utilisée en médecine, en radiologie, en biométrie et dans d'autres domaines depuis de nombreuses décennies et est de plus en plus utilisée dans l'apprentissage automatique et la recherche d'exploration de données.

Le ROC est également connu comme une courbe de caractéristique de fonctionnement relative, car il s'agit d'une comparaison de deux caractéristiques de fonctionnement (TPR et FPR) lorsque le critère change.

Vous pouvez considérer les deux axes comme des coûts qui doivent être engagés pour que le classificateur binaire fonctionne. Idéalement, vous voulez encourir un taux de faux positifs aussi bas que possible pour un taux de vrais positifs aussi élevé que possible. C'est-à-dire que vous voulez que le classificateur binaire appelle le moins de faux positifs pour autant de vrais positifs que possible.

Pour le concrétiser, imaginez un classificateur capable de détecter si une certaine maladie est présente en mesurant la quantité de certains biomarqueurs. Imaginez que le biomarqueur ait une valeur comprise entre 0 (absent) et 1 (saturé). Quel niveau maximise la détection de la maladie? Il se peut que, au-dessus d'un certain niveau, le biomarqueur classifie certaines personnes comme atteintes de la maladie, mais elles ne l'ont pas. Ce sont des faux positifs. Ensuite, bien sûr, il y a ceux qui seront classés comme ayant la maladie alors qu'ils en ont effectivement. Ce sont les vrais points positifs.

Le ROC évalue la proportion de vrais positifs de tous les positifs par rapport à la proportion de faux positifs en tenant compte de toutes les valeurs de seuil possibles.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.