Questions marquées «tf-idf»


1
Pourquoi Lucene IDF a-t-il un +1 apparemment supplémentaire?
De la documentation de Lucene IDF=1+log(numDocsdocFreq+1)IDF=1+log⁡(numDocsdocFreq+1)\text{IDF} = 1 + \log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Dans d'autres références (c'est-à-dire wikipedia ), l'IDF est généralement calculé comme ou pour éviter de plonger de 0.log(numDocsdocFreq)log⁡(numDocsdocFreq)\log\left(\frac{\text{numDocs}}{\text{docFreq}}\right)log(numDocsdocFreq+1)log⁡(numDocsdocFreq+1)\log\left(\frac{\text{numDocs}}{\text{docFreq}+1}\right) Je me rends également compte que Lucene utilise plutôt que pour calculer TF, mais ma compréhension est que ce n'est qu'une transformation …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.