À quoi contribuent les hyperparamètres alpha et bêta dans l'allocation de Dirichlet latent?


19

LDA a deux hyperparamètres, leur réglage modifie les sujets induits.

Qu'est-ce que les hyperparamètres alpha et bêta contribuent à la LDA?

Comment le sujet change-t-il si l'un ou l'autre des hyperparamètres augmente ou diminue?

Pourquoi sont-ils des hyperparamètres et pas seulement des paramètres?


voici une bonne réponse partielle: stats.stackexchange.com/a/37444/156252
Greenish

Réponses:


16

La distribution de Dirichlet est une distribution multivariée. On peut désigner les paramètres du Dirichlet comme un vecteur de taille K de la forme ~ , oùaest le vecteur de tailleKdes paramètres, etxi=1.1B(a)ixiai1aKxi=1

Maintenant, le LDA utilise des constructions comme:

  • un document peut avoir plusieurs sujets (en raison de cette multiplicité, nous avons besoin de la distribution Dirichlet); et il y a une distribution de Dirichlet qui modélise cette relation
  • les mots peuvent également appartenir à plusieurs sujets, lorsque vous les considérez en dehors d'un document; ici nous avons besoin d'un autre Dirichlet pour modéliser ce

Les deux précédentes sont des distributions que vous ne voyez pas vraiment à partir des données, c'est pourquoi elles sont appelées latentes ou cachées.

xθ

p(θ|x)=p(x|θ)p(θ|α)p(x|α)posterior probability=likelihood×prior probabilitymarginal likelihood
α

Les paramètres de l'a prior sont appelés hyperparamètres . Ainsi, dans LDA, les distributions de sujet, sur les documents et sur les mots ont également des prieurs correspondants, qui sont généralement désignés par alpha et bêta, et parce que les paramètres des distributions antérieures sont appelés hyperparamètres.

αkx

αk

αk

αk

De plus, veuillez noter que les valeurs des paramètres antérieurs produisent des pdfs lisses de la distribution car les valeurs des paramètres sont proches de 1. Donc, si vous avez une grande confiance que quelque chose est clairement distribué d'une manière que vous savez, avec un degré de confiance élevé, des valeurs loin de 1 en valeur absolue doivent être utilisées, si vous n'avez pas ce type de connaissances, des valeurs proches de 1 coderaient ce manque de connaissances. Il est facile de voir pourquoi 1 joue un tel rôle dans la distribution de Dirichlet à partir de la formule de la distribution elle-même.

αkαk

J'espère que cela a aidé.


Nous accueillons / espérons la même chose sur le support tex! : D
Rubens

11

En supposant des distributions symétriques de Dirichlet (pour plus de simplicité), une valeur alpha faible donne plus de poids à ce que chaque document ne soit composé que de quelques sujets dominants (alors qu'une valeur élevée renverra de nombreux sujets plus dominants). De même, une valeur bêta faible accorde plus de poids au fait que chaque sujet ne soit composé que de quelques mots dominants.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.