J'essaie de comprendre comment calculer l'indice Rand d'un algorithme de cluster, mais je suis coincé au point de savoir comment calculer les vrais et les faux négatifs.
Pour le moment, j'utilise l'exemple du livre An Introduction into Information Retrieval (Manning, Raghavan & Schütze, 2009). À la page 359, ils expliquent comment calculer l'indice Rand. Pour cet exemple, ils utilisent trois clusters et les clusters contiennent les objets suivants.
- aaaaab
- abbbbc
- aaccc
Je remplace l'objet (signes originaux en lettres, mais l'idée et le décompte restent les mêmes). Je vais donner les mots exacts du livre afin de voir de quoi ils parlent:
Nous calculons d'abord TP + FP. Les trois groupes contiennent respectivement 6, 6 et 5 points, de sorte que le nombre total de «positifs» ou de paires de documents qui se trouvent dans le même groupe est:
TP + FP = + + = 15 + 15+ 10 = 40
Parmi ceux-ci, les paires a du cluster 1, les paires b du cluster 2, les paires c du cluster 3 et la paire a du cluster 3 sont de vrais positifs:
TP = + + + = 10 + 6 + 3 + 1 = 20
Ainsi, FP = 40-20 = 20.
Jusqu'ici, les calculs sont clairs, et si je prends d'autres exemples, j'obtiens les mêmes résultats, mais quand je veux calculer le faux négatif et le vrai négatif Manning et al. énoncer ce qui suit:
FN et TN sont calculés de manière similaire, ce qui donne le tableau de contingence suivant:
Le tableau de contingence se présente comme suit:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
La phrase: "FN et TN sont calculés de la même manière" n'est pas claire pour moi et je ne comprends pas de quels nombres j'ai besoin pour calculer le TN et le FN. Je peux calculer le côté droit du tableau en procédant comme suit:
TP + FP + FN + TN = = = 136
Source: http://en.wikipedia.org/wiki/Rand_index
Ainsi, FN + TN = 136 - TP + FP = 136 - 40 = 96, mais cela ne m'aide pas vraiment à comprendre comment calculer les variables séparément. Surtout quand les auteurs disent: "FN et TN sont calculés de manière similaire". Je ne vois pas comment. Aussi quand je regarde d'autres exemples, ils calculent chaque cellule du tableau de contingence en regardant chaque paire.
Par exemple: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Ma première question, basée sur l'exemple de Manning et al (2009), est-il possible de calculer le TN et le FN si vous ne connaissez que le TP & NP? Et si oui, à quoi ressemble un calcul similaire basé sur l'exemple donné?