Implémentation: le package topicmodels fournit une interface avec le code GSL C et C ++ pour les modèles de sujets de Blei et al. et Phan et al. Pour le premier, il utilise Variational EM, pour le dernier Gibbs Sampling. Voir http://www.jstatsoft.org/v40/i13/paper . Le package fonctionne bien avec les utilitaires du package tm.
Le package lda utilise un échantillonneur Gibbs réduit pour un certain nombre de modèles similaires à ceux de la bibliothèque GSL. Cependant, il a été implémenté par les auteurs du package lui-même, et non par Blei et al. Cette implémentation diffère donc en général de la technique d'estimation proposée dans les articles originaux introduisant ces variantes de modèle, où l'algorithme VEM est généralement appliqué. D'un autre côté, le package offre plus de fonctionnalités que l'autre package. Le package fournit également une fonctionnalité d'exploration de texte.
Extensibilité: En ce qui concerne l'extensibilité, le code du modèle de rubrique peut, par sa nature même, être étendu pour interfacer d'autres codes de modèle de rubrique écrits en C et C ++. Le package lda semble s'appuyer davantage sur l'implémentation spécifique fournie par les auteurs, mais l'échantillonneur Gibbs pourrait permettre de spécifier votre propre modèle de sujet. Pour les problèmes d'extensibilité nota bene, le premier est sous licence GPL-2 et le dernier LGPL, donc cela peut dépendre de ce pour quoi vous devez l'étendre (la GPL-2 est plus stricte en ce qui concerne l'aspect open source, c'est-à-dire que vous ne pouvez pas l'utiliser dans un logiciel propriétaire).
Performance: Je ne peux pas vous aider ici, je n'ai utilisé que des modèles de sujet jusqu'à présent.
Conclusion:
personnellement topicmodels
, j'utilise , car il est bien documenté (voir l'article JSS ci-dessus) et je fais confiance aux auteurs (Grün implémente également flexmix et Hornik est le membre principal de R).