Que signifie échantillonner un vecteur de probabilité à partir d'une distribution de Dirichlet?

J'apprends essentiellement l'allocation Dirichlet latente. Je regarde une vidéo ici: http://videolectures.net/mlss09uk_blei_tm/ et bloqué à la minute 45 quand il a commencé à expliquer sur l'échantillonnage de la distribution.

J'ai également essayé de consulter un livre d'apprentissage machine qui n'a pas d'introduction détaillée sur la distribution Dirichelt. Dans le livre que je lis, il mentionne un exemple d'échantillonnage des "vecteurs de probabilité" de la distribution de Dirichlet, mais qu'est-ce que cela signifie?

Je comprends que l'échantillonnage d'une distribution consiste à obtenir des valeurs aléatoires pour les variables aléatoires en fonction de la distribution. Soit donc p_X, Y (x, y) mais le pmf de toute distribution, l'échantillonnage de cette distribution signifie que j'obtiens un aléatoire (x, y) (c'est-à-dire des valeurs aléatoires pour x et y). Pour obtenir la probabilité d'obtenir l'événement (X = x ET Y = y), nous évaluons le pmf de la distribution ... nous obtenons donc un seul nombre. Mais quels sont les "vecteurs de probabilité" ici !!

J'ai joint une capture d'écran pour le livre. J'espère vraiment que vous pourrez aider!

entrez la description de l'image ici

— Jack Twain
source

Je suppose que le vecteur de probabilité est exactement ce que vous échantillonnez avec la distribution de Dirichlet. Exemple: (0,5, 0,4, 0,1) est un vecteur et est utilisé pour représenter les proportions / probabilités d'une distribution d'une variable à 3 classes.

— Scratch du

@Scratch quand vous avez dit 3 classes, cela signifie une variable aléatoire définie uniquement sur 3 valeurs discrètes, non?

— Jack Twain

Donc, fondamentalement, chaque échantillon d'un dirichlet représente une distribution sur K classes.

— Jack Twain

oui la distribution Dirichlet a été créée pour ce type de problèmes: simuler une distribution sur des classes.

— Scratch du

@Scratch pouvez-vous s'il vous plaît voir ma question ici stats.stackexchange.com/questions/81136/…

— Jack Twain

Une distribution de Dirichlet est souvent utilisée pour catégoriser de manière probabiliste les événements parmi plusieurs catégories. Supposons que les événements météorologiques prennent une distribution de Dirichlet. On pourrait alors penser que la météo de demain a une probabilité d'ensoleillement égale à 0,25, une probabilité de pluie égale à 0,5 et une probabilité de neige égale à 0,25. La collecte de ces valeurs dans un vecteur crée un vecteur de probabilités.

Une autre façon de penser à une distribution Dirichlet est le processus de casser un bâton. Imaginez un bâton de longueur unitaire. Cassez ce bâton n'importe où et conservez l'un des deux morceaux. Ensuite, divisez le morceau restant en deux et continuez aussi longtemps que vous le souhaitez. Tous les morceaux ensemble doivent correspondre à la longueur unitaire, et l'allocation de morceaux de longueurs différentes à différents événements représente la probabilité de cet événement.

Si vous connaissez la distribution bêta, la distribution Dirichlet pourrait devenir encore plus claire. Une distribution bêta est souvent utilisée pour décrire une distribution de probabilités d'événements dichotomiques, elle est donc limitée à l'intervalle unitaire. Par exemple, pour un essai de Bernoulli, il n'y a qu'un paramètre $\theta$ décrivant la probabilité d'un «succès». Souvent on pense $\theta$ comme étant fixe, mais si nous ne sommes pas certains de la "vraie" valeur de $\theta$ , on pourrait penser à une distribution de tous les $\theta$ s, avec une plus grande probabilité pour ceux que nous considérons plus plausibles, donc peut-être $\theta \sim \text{B}(\alpha, \beta)$ , où $\alpha>\beta$ concentre plus de la masse près de 1 et $\beta > \alpha$ concentre plus de la masse près de 0.

On pourrait objecter que la distribution bêta ne décrit que la probabilité d'une seule probabilité, c'est-à-dire, par exemple, que $P(\theta<0.25)=0.5$ , qui est un nombre scalaire. Mais gardez à l'esprit que la distribution bêta décrit des résultats dichotomiques . Donc, en appliquant le deuxième axiome de Kolmogorov, nous savons également que $P(\theta \ge 0.25)=0.5$ ainsi que. La collecte de ces résultats dans un vecteur nous donne un vecteur de probabilités.

L'extension de la distribution bêta en trois catégories ou plus nous donne la distribution de Dirichlet; en effet, le PDF du Dirichlet pour deux groupes est exactement le même que la distribution bêta.

— Sycorax dit de réintégrer Monica
source