Qu'est-ce que la «ligne de base» dans la courbe de rappel de précision

15

J'essaie de comprendre la courbe de rappel de précision, je comprends ce que sont la précision et le rappel, mais ce que je ne comprends pas, c'est la valeur "de base". Je lisais ce lien https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/

et je ne comprends pas la partie de la ligne de base comme indiqué dans "Une courbe de précision-rappel d'un classificateur parfait" que fait-elle? et comment le calculons-nous? Est-ce juste une référence aléatoire que nous sélectionnons? Par exemple , j'ai données twitter avec des attributs comme retweet,status_countetc et mon étiquette de classe est Favorited1 si Favorited et 0 sinon Favorited et j'applique Bayes naïf et maintenant je veux tracer la courbe-rappel de précision, comment dois - je mettre ma ligne de base dans ce cas ?

r machine-learning classification precision-recall

— hyeri
source

13

La "courbe de base" dans un tracé de courbe PR est une ligne horizontale avec une hauteur égale au nombre d'exemples positifs $P$ sur le nombre total de données d'entraînement $N$ , c'est-à-dire. la proportion d'exemples positifs dans nos données ( $\frac{P}{N}$ ).

OK, pourquoi est-ce le cas? Supposons que nous avons un « classificateur junk » . renvoie une aléatoire probabilité de la instance de l' échantillon -ième à être en classe . Par commodité, disons . L'implication directe de cette affectation de classe aléatoire est que aura une précision (attendue) égale à la proportion d'exemples positifs dans nos données. Ce n'est que naturel; tout sous-échantillon totalement aléatoire de nos données aura $C_J$ $C_J$ $p_i$ $i$ $y_i$ $A$ $p_i \sim U[0,1]$ $C_J$ exemples correctement classés. Ce sera vrai pour un seuil probabiliténous pourrions utiliser comme une limite de décision pour les probabilités d'appartenance àclasse retournées par. (désigne une valeur dansoù les valeurs de probabilité supérieures ou égales àsont classées dans la classe) Par contre, la performance de rappel deest (en attente) égale àsi. À n'importe quel seuil donné $E\{\frac{P}{N}\}$ $q$ $C_J$ $q$ $[0,1]$ $q$ $A$ $C_J$ $q$ $p_i \sim U[0,1]$ nous choisirons (environ) de nos données totales qui contiendront par la suite (environ) du nombre total d'instances de classe dans l'échantillon. D'où la ligne horizontale que nous avons mentionnée au début! Pour chaque valeur de rappel (valeurs dans le graphique PR), la valeur de précision correspondante (valeurs dans le graphique PR) est égale à $q$ $(100(1-q))\%$ $(100(1-q))\%$ $A$ $x$ $y$ . $\frac{P}{N}$

Petite note: le seuil n'est généralement pas égal à 1 moins le rappel attendu. Cela se produit dans le cas d'un mentionné ci-dessus uniquement en raison de la distribution uniforme aléatoire des résultats de ; pour une distribution différente (p. ex. ), cette relation d'identité approximative entre et rappel ne tient pas; été utilisé car il est le plus facile à comprendre et à visualiser mentalement. Pour une distribution aléatoire différente dans $q$ $C_J$ $C_J$ $p_i \sim B(2,5)$ $q$ $U[0,1]$ le profil PR de ne changera pas cependant. Seul le placement des valeurs PR pour desvaleurs données changera. $[0,1]$ $C_J$ $q$

En ce qui concerne un classificateur parfait , on voudrait dire un classificateur qui renvoie la probabilité pour échantillonner l'instance étant de classe si est en effet dans la classe et en plus renvoie la probabilité si n'est pas membre de la classe . Cela implique que pour tout seuil nous aurons une précision de (c'est-à-dire qu'en termes de graphique, nous obtenons une ligne commençant à une précision de ). Le seul point que nous n'obtenons pas $C_P$ $1$ $y_i$ $A$ $y_i$ $A$ $C_P$ $0$ $y_i$ $A$ $q$ $100\%$ $100\%$ précision en est à . Pour , la précision tombe à la proportion d'exemples positifs dans nos données ( $100\%$ $q = 0$ $q=0$ ) comme (insensément?) Nous classonspoints même avecprobabilité d'être de classecomme étant en classe. Le graphe PR den'a que deux valeurs possibles pour sa précision,et $\frac{P}{N}$ $0$ $A$ $A$ $C_P$ $1$ . $\frac{P}{N}$

OK et du code R pour voir cela de première main avec un exemple où les valeurs positives correspondent à de notre échantillon. Notez que nous faisons une « affectation douce » de la catégorie de classe dans le sens où la valeur de probabilité associée à chaque point quantifie à notre confiance que ce point est de classe . $40\%$ $A$

  rm(list= ls())
  library(PRROC)
  N = 40000
  set.seed(444)
  propOfPos = 0.40
  trueLabels = rbinom(N,1,propOfPos)
  randomProbsB = rbeta(n = N, 2, 5) 
  randomProbsU = runif(n = N)  

  # Junk classifier with beta distribution random results
  pr1B <- pr.curve(scores.class0 = randomProbsB[trueLabels == 1], 
                   scores.class1 = randomProbsB[trueLabels == 0], curve = TRUE) 
  # Junk classifier with uniformly distribution random results
  pr1U <- pr.curve(scores.class0 = randomProbsU[trueLabels == 1], 
                   scores.class1 = randomProbsU[trueLabels == 0], curve = TRUE) 
  # Perfect classifier with prob. 1 for positives and prob. 0 for negatives.
  pr2 <- pr.curve(scores.class0 = rep(1, times= N*propOfPos), 
                  scores.class1 = rep(0, times = N*(1-propOfPos)), curve = TRUE)

  par(mfrow=c(1,3))
  plot(pr1U, main ='"Junk" classifier (Unif(0,1))', auc.main= FALSE, 
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
  pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.50)),c(1,2)];
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
  pcord = pr1U$curve[ which.min( abs(pr1U$curve[,3]- 0.20)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
  plot(pr1B, main ='"Junk" classifier (Beta(2,5))', auc.main= FALSE,
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);
  pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.50)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 1)
  pcord = pr1B$curve[ which.min( abs(pr1B$curve[,3]- 0.20)),c(1,2)]; 
  points( pcord[1], pcord[2], col='black', cex= 2, pch = 17)
  plot(pr2, main = '"Perfect" classifier', auc.main= FALSE, 
       legend=FALSE, col='red', panel.first= grid(), cex.main = 1.5);

où les cercles noirs et les triangles indiquent et respectivement dans les deux premiers graphiques. On voit tout de suite que les classificateurs "junk" vont rapidement à une précision égale à $q =0.50$ $q=0.20$ ; de même, le classificateur parfait a la précisionpour toutes les variables de rappel. Sans surprise, l'ASCPR pour le classificateur "indésirable" est égal à la proportion d'exemples positifs dans notre échantillon () et l'ASCPR pour le "classificateur parfait" est approximativement égal à. $\frac{P}{N}$ $1$ $\approx 0.40$ $1$

De façon réaliste, le graphe PR d'un classifieur parfait est un peu inutile car on ne peut jamais avoir rappel (on ne prévoit jamais que la classe négative); nous commençons juste à tracer la ligne à partir du coin supérieur gauche par convention. À strictement parler, il ne devrait montrer que deux points, mais cela ferait une courbe horrible. :RÉ $0$

Pour mémoire, il y a déjà eu de très bonnes réponses en CV concernant l'utilité des courbes PR: ici , ici et ici . Le simple fait de les lire attentivement devrait offrir une bonne compréhension générale des courbes PR.

— usεr11852
source

1

J'ai rejoint cette communauté juste pour que je puisse voter contre. Il s'agit d'une excellente explication du concept de la ligne de base dans les courbes de rappel de précision. En tant que bioinformaticien, je l'ai trouvé extrêmement utile.

— jimh

1

@jimh: Merci, c'est une très bonne chose d'entendre ça. Je suis content que le message ait été utile.

— usεr11852

Je sais que ce n'est pas un commentaire qui apporte des informations utiles, mais je tiens à vous remercier beaucoup pour votre explication approfondie et révélatrice.

— Ric S

0

Grande réponse ci-dessus. Voici ma façon intuitive d'y penser. Imaginez que vous avez un tas de boules rouge = positif et jaune = négatif, et vous les jetez au hasard dans un seau = fraction positive. Ensuite, si vous avez le même nombre de boules rouges et jaunes, lorsque vous calculez PREC = tp / tp + fp = 100/100 + 100 à partir de votre seau rouge (positif) = jaune (négatif), donc, PREC = 0,5. Cependant, si j'avais 1000 boules rouges et 100 boules jaunes, alors dans le seau, je m'attendrais au hasard à PREC = tp / tp + fp = 1000/1000 + 100 = 0,91 car c'est la base de chance dans la fraction positive qui est également RP / RP + RN, où RP = réel positif et RN = réel négatif.

— Christopher John
source