Mon manuel répertorie l'idf comme où
- : nombre de documents
- : nombre de documents contenant le terme t
Wikipedia répertorie cette formule comme une version lissée du l o g réel ( N. Celui que je comprends: il varie delog(Nà∞ce qui semble intuitif.
Maislog(1+N
va delog(1+1)à∞ce qui semble si étrange ...
Je connais un peu le lissage de la modélisation du langage mais là vous ajouteriez quelque chose au numérateur ainsi qu'au dénominateur car vous êtes inquiet sur la masse de probabilité. Mais juste ajouter1n'a pas de sens pour moi. Qu'essayons-nous d'accomplir ici?