Dans une application d'exploration de texte, une approche simple consiste à utiliser l' heuristique pour créer des vecteurs sous forme de représentations compactes et clairsemées des documents. C'est très bien pour le réglage par lots, où l'ensemble du corpus est connu a priori, car l' i d f nécessite l'ensemble du corpus
où est un terme, d est un document, D est le corpus de documents et T (non illustré) est le dictionnaire.
Cependant, de nouveaux documents sont généralement reçus au fil du temps. Une option consiste à continuer à utiliser l' existant jusqu'à ce qu'un certain nombre de nouveaux documents soient reçus et à le recalculer. Cependant, cela semble plutôt inefficace. Quelqu'un connaît-il un schéma de mise à jour incrémentielle qui (éventuellement environ) converge vers la valeur si toutes les données ont été vues à l'avance? Ou bien existe-t-il une autre mesure qui capture la même notion mais qui peut être calculée de manière incrémentale?
Il y a également une question connexe de savoir si l' reste une bonne mesure dans le temps. Étant donné que l'idf capture la notion de fréquence des mots du corpus, il est concevable que des documents plus anciens dans le corpus (par exemple, que mon corpus comprend plus de 100 ans d'articles de revues), car les fréquences de différents mots changent au fil du temps. Dans ce cas, il peut être judicieux de jeter les documents plus anciens lorsque de nouveaux arrivent, en utilisant en fait une fenêtre coulissante i d f . En théorie, on pourrait également stocker tous les vecteurs i d f précédents au fur et à mesure que de nouveaux vecteurs sont calculés, puis si nous voulions récupérer des documents de 1920 à 1930 par exemple, nous pourrions utiliser les i d fcalculé à partir des documents de cette plage de dates. Cette approche a-t-elle un sens?
Edit: Il y a une question distincte mais connexe sur le dictionnaire . À mesure que le temps évolue, de nouveaux termes de dictionnaire n'apparaîtront pas auparavant, donc | T | devra croître, et donc la longueur du vecteur i d f . Il semble que cela ne serait pas un problème, car des zéros pourraient être ajoutés aux anciens vecteurs i d f .