Ainsi, dans la modélisation de texte (non supervisée), l'allocation de Dirichlet latent (LDA) est une version bayésienne de l'analyse sémantique probabiliste latente (PLSA). Essentiellement, LDA = PLSA + Dirichlet prioritaire sur ses paramètres. Ma compréhension est que LDA est maintenant l'algorithme de référence et est implémenté dans divers packages, tandis que PLSA ne devrait plus être utilisé.
Mais dans la catégorisation de texte (supervisée), nous pourrions faire exactement la même chose pour le classificateur multinomial Naive Bayes et mettre un Dirichlet avant sur les paramètres. Mais je ne pense pas avoir vu quelqu'un faire ça, et la version "ponctuelle" de Naive Bayes multinomiale semble être la version implémentée dans la plupart des packages. Y a-t-il une raison à cela?