Pour regrouper (texte) des documents, vous avez besoin d'un moyen de mesurer la similitude entre des paires de documents.
Deux alternatives sont:
Comparez les documents comme vecteurs de termes en utilisant la similitude cosinus - et TF / IDF comme pondérations pour les termes.
Comparer la distribution de probabilité de chaque document en utilisant la divergence f, par exemple la divergence de Kullback-Leibler
Y a-t-il une raison intuitive de préférer une méthode à l'autre (en supposant une taille moyenne de document de 100 termes)?