Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF

Je lisais:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est.

Ce que je comprends:

iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme apparaît plus fréquemment.

De ce point de vue

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

De plus, la fréquence des termes peut être décrite à juste titre comme

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Alors la mesure

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

est en quelque sorte proportionnelle à la fréquence à laquelle un terme apparaît dans un document donné et à son caractère unique sur l'ensemble des documents.

Ce que je ne comprends pas

Mais la formule donnée le décrit comme

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Je souhaite comprendre la nécessité des logarithmes décrits dans la définition. Genre, pourquoi sont-ils là? Sur quel aspect mettent-ils l'accent?

— pois grenouille
source

L'aspect souligné est que la pertinence d'un terme ou d'un document n'augmente pas proportionnellement à la fréquence du terme (ou du document). L'utilisation d'une fonction sub-linéaire permet donc de vider cet effet. Pour cela, l'influence de très grandes ou très petites valeurs (par exemple des mots très rares) est également amortie. Enfin, comme la plupart des gens perçoivent intuitivement les fonctions de notation comme étant quelque peu additives en utilisant des logarithmes, la probabilité que différents termes indépendants de ressemblent davantage à . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Comme l'article Wikipedia que vous liez note que la justification de TF-IDF n'est pas encore bien établie; c'est / était une heuristique que nous voulons rendre rigoureuse, pas un concept rigoureux que nous voulons transférer dans le monde réel. Comme l'a mentionné @ Anony-Mousse comme une très bonne lecture à ce sujet, on peut citer la compréhension de la fréquence des documents inverses de Robertson : sur les arguments théoriques pour les FDI . Il donne un large aperçu de l'ensemble du cadre et tente de fonder la méthodologie TF-IDF sur la pondération de la pertinence des termes de recherche.

— usεr11852
source

Une justification de TF-IDF peut être trouvée dans "Une étude formelle de l'heuristique de la recherche d'information.", 2004 par Fang, Hui et al ( pdf ).

— Alexey Grigorev

Je pense que c'est la meilleure référence pour les justifications de TF-IDF: Robertson, S. (2004). "Comprendre la fréquence inverse des documents: sur les arguments théoriques de l'IDF". Journal of Documentation 60 (5): 503–520.

— A QUIT - Anony-Mousse

Merci pour vos commentaires messieurs (et merci spécial Alexey pour la correction du \log, je les oublie constamment); +1 aux deux. J'ai vu le document Robertson et j'ai envisagé de l'ajouter; c'est une très bonne lecture, je vais l'ajouter dans le corps principal.

— usεr11852

@ Anony-Mousse (pdf)

— Morse le chat

Je veux savoir pourquoi "nombre maximum d'occurrences pour n'importe quelle chaîne Q dans le document D" est utilisé à la place de number of occurrences for all strings in document D. Pourquoi voulons-nous le nombre de mots les plus courants au lieu du nombre de tous les mots?

— Xeoncross du