Interprétation naturelle pour les hyperparamètres LDA


21

Quelqu'un peut-il expliquer quelle est l'interprétation naturelle des hyperparamètres LDA? ALPHAet BETAsont des paramètres des distributions de Dirichlet pour les distributions de mots (par document) et (par sujet) de mots respectivement. Cependant, quelqu'un peut-il expliquer ce que signifie choisir des valeurs plus élevées de ces hyperparamètres par rapport à des valeurs plus petites? Est-ce que cela signifie mettre des croyances antérieures en termes de rareté des sujets dans les documents et d'exclusivité mutuelle des sujets en termes de mots?

Cette question concerne l'allocation latente de Dirichlet, mais le commentaire de BGReene immédiatement ci-dessous se réfère à une analyse discriminante linéaire, qui est également en abrégé LDA.


Je pense que vous devez donner plus de détails sur la formulation LDA que vous utilisez. Généralement, seuls les modèles RDA ont ces paramètres, la LDA est généralement entièrement définie par le vecteur moyen, la matrice de covariance et les probabilités antérieures.
BGreene

Réponses:


11

David Blei a une grande conférence présentant LDA aux étudiants d'une classe d'été: http://videolectures.net/mlss09uk_blei_tm/

Dans la première vidéo, il couvre en détail l'idée de base de la modélisation de sujets et comment les distributions Dirichlet entrent en jeu. La notation de plaque est expliquée comme si toutes les variables cachées sont observées pour montrer les dépendances. Fondamentalement, les sujets sont des distributions sur des mots et des distributions de documents sur des sujets.

Dans la deuxième vidéo, il montre l'effet de l'alpha avec quelques exemples de graphiques. Plus l'alpha est petit, plus la distribution est clairsemée. De plus, il présente quelques approches d'inférence.


7
cela ne devrait pas être la réponse acceptée
samsamara

Je suppose que tu as raison. J'ai complètement oublié que j'ai écrit ça.
Karsten

Oh! ne m'attendais pas à voir un commentaire de l'auteur! hehe :)
samsamara

48

La réponse dépend de si vous supposez la distribution dirichlet symétrique ou asymétrique (ou, plus techniquement, si la mesure de base est uniforme). Sauf indication contraire, la plupart des implémentations de LDA supposent que la distribution est symétrique.

Pour la distribution symétrique, une valeur alpha élevée signifie que chaque document est susceptible de contenir un mélange de la plupart des sujets, et pas un seul sujet en particulier. Une valeur alpha faible impose moins de contraintes sur les documents et signifie qu'il est plus probable qu'un document puisse contenir un mélange de quelques-uns, voire d'un seul, des sujets. De même, une valeur bêta élevée signifie que chaque sujet est susceptible de contenir un mélange de la plupart des mots, et non un mot en particulier, tandis qu'une valeur faible signifie qu'un sujet peut contenir un mélange de seulement quelques mots.

Si, en revanche, la distribution est asymétrique, une valeur alpha élevée signifie qu'une distribution de sujet spécifique (en fonction de la mesure de base) est plus probable pour chaque document. De même, des valeurs bêta élevées signifient que chaque sujet est plus susceptible de contenir un mélange de mots spécifique défini par la mesure de base.

En pratique, une valeur alpha élevée conduira à des documents plus similaires en termes de sujets qu'ils contiennent. Une valeur bêta élevée conduira également à des sujets plus similaires en termes de mots qu'ils contiennent.

Donc, oui, les paramètres alpha spécifient les croyances antérieures sur la rareté / l'uniformité du sujet dans les documents. Je ne suis pas tout à fait sûr de ce que vous entendez par "exclusivité mutuelle des sujets en termes de mots".


Plus généralement, ce sont des paramètres de concentration pour la distribution de dirichlet utilisée dans le modèle LDA. Pour acquérir une compréhension intuitive de la façon dont cela fonctionne, cette présentation contient de belles illustrations, ainsi qu'une bonne explication de LDA en général.


(α1,α2,...,αK)u=(u1,u2,...,uK)ααu=(α1,α2,...,αK)α(α1,α2,...,αK)(α1,α2,...,αK)


2
+1 réponse informative! Je veux savoir quelle est la valeur haute / basse d'une valeur haute / basse pour alpha et beta en général?
samsamara

La bêta est censée être une distribution sur les mots de chaque sujet (une matrice), non? Alors, comment une seule valeur se traduit-elle dans une matrice?
Noamiko

Ai-je raison de conclure qu'un alpha élevé signifie que les documents sont similaires et un bêta élevé signifie que les sujets sont similaires?
Lewistrick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.