Précision moyenne moyenne vs rang réciproque moyen

J'essaie de comprendre quand il est approprié d'utiliser le MAP et quand le MRR doit être utilisé. J'ai trouvé cette présentation qui indique que le MRR est mieux utilisé lorsque le nombre de résultats pertinents est inférieur à 5 et meilleur quand il est 1. Dans d'autres cas, le MAP est approprié. J'ai deux questions:

Je ne comprends pas vraiment pourquoi il en est ainsi.
Je ne trouve pas de référence citable pour cette réclamation.

Veuillez noter que je n'ai pas une formation statistique très solide, donc l'explication d'un profane serait très utile. Je vous remercie.

information-retrieval average-precision

— KG
source

Imaginez que vous ayez une sorte de requête, et votre système de récupération vous a renvoyé une liste classée des 20 principaux éléments qu'il juge les plus pertinents pour votre requête. Imaginez maintenant qu'il y a une vérité fondamentale à cela, qu'en vérité, nous pouvons dire pour chacun de ces 20 que "oui" c'est une réponse pertinente ou "non" ce n'est pas.

Le classement réciproque moyen (MRR) vous donne une mesure générale de la qualité dans ces situations, mais le MRR ne se soucie que de l'élément pertinent le mieux classé . Si votre système renvoie un article pertinent au troisième rang, c'est ce qui compte pour MRR. Peu importe si les autres éléments pertinents (en supposant qu'il y en ait) sont classés 4 ou 20.

Par conséquent, le MRR est approprié pour juger un système où (a) il n'y a qu'un seul résultat pertinent, ou (b) dans votre cas d'utilisation, vous ne vous souciez vraiment que du plus haut. Cela peut être vrai dans certains scénarios de recherche sur le Web, par exemple, où l'utilisateur veut simplement trouver une chose sur laquelle cliquer, il n'en a plus besoin. (Bien que cela soit généralement vrai, ou seriez-vous plus satisfait d'une recherche sur le Web qui a renvoyé dix très bonnes réponses, et vous pourriez vous faire votre propre opinion sur laquelle parmi lesquelles cliquer ...?)

La précision moyenne moyenne (MAP) considère si tous les éléments pertinents ont tendance à obtenir un classement élevé. Donc, dans l'exemple du top 20, il ne se soucie pas seulement s'il y a une réponse pertinente au numéro 3, il se soucie également de savoir si tous les éléments "oui" de cette liste sont regroupés vers le haut.

Lorsqu'il n'y a qu'une seule réponse pertinente dans votre jeu de données, le MRR et le MAP sont exactement équivalents selon la définition standard du MAP.

Pour voir pourquoi, considérez les exemples de jouets suivants, inspirés des exemples de ce billet de blog :

Exemple 1

Requête: "Capitale de la Californie"

Résultats classés: "Portland", "Sacramento", "Los Angeles"

Résultats classés (pertinence binaire): [0, 1, 0]

Nombre de réponses correctes possibles: 1

Rang réciproque: $\frac{1}{2}$

Précision à 1: $\frac{0}{1}$

Précision à 2: $\frac{1}{2}$

Précision à 3: $\frac{1}{3}$

Précision moyenne = . $\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Comme vous pouvez le voir, la précision moyenne d'une requête avec exactement une réponse correcte est égale au rang réciproque du résultat correct. Il s'ensuit que le MRR d'une collection de telles requêtes sera égal à son MAP. Cependant, comme l'illustre l'exemple suivant, les choses divergent s'il y a plusieurs réponses correctes:

Exemple 2

Requête: "Villes de Californie"

Résultats classés: "Portland", "Sacramento", "Los Angeles"

Résultats classés (pertinence binaire): [0, 1, 1]

Nombre de réponses correctes possibles: 2

Rang réciproque: $\frac{1}{2}$

Précision à 1: $\frac{0}{1}$

Précision à 2: $\frac{1}{2}$

Précision à 3: $\frac{2}{3}$

Précision moyenne = . $\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

En tant que tel, le choix de MRR vs MAP dans ce cas dépend entièrement de si vous voulez ou non que le classement après le premier coup correct influence.

— Dan Stowell
source