Je suis tombé sur un nouvel article du groupe Berkeley NLP sur les tests statistiques, An Empirical Investigation of Statistical Significance in NLP .
Il existe un pseudocode pour calculer une valeur de p dans le papier, en gros, l'idée est que l'ensemble d'échantillons de sont échantillonnés avec remplacement à partir des données . alors
, où est un gain métrique.
Je pouvais comprendre la formule de calcul de la valeur de p dans le document de Koehn, Tests de signification statistique pour l'évaluation de la traduction automatique , dans lequel:
, où et sont le gain métrique pour le système et respectivement.
Y a-t-il une explication ou une référence pour la formule . Les auteurs ont également noté que si la moyenne de est et est symétrique, alors les deux formules ci-dessus sont équivalentes.