Pourquoi en ajouter un en fréquence de document inverse?


9

Mon manuel répertorie l'idf comme log(1+Nnt)

  • : nombre de documentsN
  • : nombre de documents contenant le terme tntt

Wikipedia répertorie cette formule comme une version lissée du l o g réel ( N. Celui que je comprends: il varie delog(Nlog(Nnt)àce qui semble intuitif. Maislog(1+Nlog(NN)=0
va delog(1+1)àce qui semble si étrange ... Je connais un peu le lissage de la modélisation du langage mais là vous ajouteriez quelque chose au numérateur ainsi qu'au dénominateur car vous êtes inquiet sur la masse de probabilité. Mais juste ajouter1n'a pas de sens pour moi. Qu'essayons-nous d'accomplir ici?log(1+Nnt)log(1+1)
1



Le lissage correct sera
log(N(1+nt))

Réponses:


7

+1

log(1+Nnt)log(2)log(Nnt)log(Nnt)

k+log(N/s)k,s0,1s1+nt=1N

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.