La réponse dépend de si vous supposez la distribution dirichlet symétrique ou asymétrique (ou, plus techniquement, si la mesure de base est uniforme). Sauf indication contraire, la plupart des implémentations de LDA supposent que la distribution est symétrique.
Pour la distribution symétrique, une valeur alpha élevée signifie que chaque document est susceptible de contenir un mélange de la plupart des sujets, et pas un seul sujet en particulier. Une valeur alpha faible impose moins de contraintes sur les documents et signifie qu'il est plus probable qu'un document puisse contenir un mélange de quelques-uns, voire d'un seul, des sujets. De même, une valeur bêta élevée signifie que chaque sujet est susceptible de contenir un mélange de la plupart des mots, et non un mot en particulier, tandis qu'une valeur faible signifie qu'un sujet peut contenir un mélange de seulement quelques mots.
Si, en revanche, la distribution est asymétrique, une valeur alpha élevée signifie qu'une distribution de sujet spécifique (en fonction de la mesure de base) est plus probable pour chaque document. De même, des valeurs bêta élevées signifient que chaque sujet est plus susceptible de contenir un mélange de mots spécifique défini par la mesure de base.
En pratique, une valeur alpha élevée conduira à des documents plus similaires en termes de sujets qu'ils contiennent. Une valeur bêta élevée conduira également à des sujets plus similaires en termes de mots qu'ils contiennent.
Donc, oui, les paramètres alpha spécifient les croyances antérieures sur la rareté / l'uniformité du sujet dans les documents. Je ne suis pas tout à fait sûr de ce que vous entendez par "exclusivité mutuelle des sujets en termes de mots".
Plus généralement, ce sont des paramètres de concentration pour la distribution de dirichlet utilisée dans le modèle LDA. Pour acquérir une compréhension intuitive de la façon dont cela fonctionne, cette présentation contient de belles illustrations, ainsi qu'une bonne explication de LDA en général.
( α1, α2, . . . , αK)u = ( u1, u2, . . . , uK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK)( α1, α2, . . . , αK)