Pourquoi l'ACP probabiliste utilise-t-elle les variables gaussiennes a priori sur latentes?


8

Je lis actuellement des articles sur l'ACP probabiliste et je me demande pourquoi un a priori gaussien (et pas un autre a priori) est choisi pour les variables latentes? Est-ce juste parce que c'est simple ou y a-t-il une autre raison?

Références:

Réponses:


4

ACP probabiliste

L'ACP probabiliste est un modèle à variable latente gaussienne de la forme suivante. Les observations sont constituées de variables, les variables latentes sont supposées être constituées de variables; les variables antérieures sur latentes sont une Gaussienne à covariance unitaire moyenne nulle: et la distribution conditionnelle des variables observées étant donné les variables latentes est Il s’avère que la solution du maximum de vraisemblance à ce modèle est donnée par les premiers composants PCA des données: colonnes dexRDDzRMM<D

zN(0,I),
x|zN(Wz+μ,σ2I).
MWML sont proportionnels aux vecteurs propres supérieurs de la matrice de covariance (axes principaux). Voir Tipping & Bishop pour plus de détails.

Pourquoi utiliser Gaussian avant?

  1. Pour tout autre a priori (ou du moins pour la plupart des autres a priori), la solution du maximum de vraisemblance ne correspondra pas à la solution standard de l'ACP, il n'y aurait donc aucune raison d'appeler ce modèle de variable latente «ACP probabiliste». Gaussian prior est celui qui donne naissance à l'ACP.N(0,I)

  2. La plupart des autres antérieurs rendraient le problème beaucoup plus compliqué ou même insoluble analytiquement. La distribution conditionnelle gaussienne a priori et gaussienne conduit à la distribution marginale gaussienne , et il est facile de voir que sa matrice de covariance sera donnée par . Les distributions non gaussiennes sont beaucoup plus difficiles à utiliser.p(x)WW+σ2I

  3. La distribution marginale gaussienne est également intéressante car la tâche de l'ACP standard est de modéliser la matrice de covariance (c'est-à-dire le deuxième moment); PCA ne s'intéresse pas aux moments supérieurs de la distribution des données. La distribution gaussienne est entièrement décrite par les deux premiers moments: moyenne et covariance. Nous ne voulons pas utiliser des distributions plus compliquées / flexibles, car PCA ne traite pas de ces aspects des données.p(x)

  4. La matrice gaussienne a de covariance unité avant parce que l'idée est d'avoir des variables latentes non corrélées qui donnent lieu à des covariances observées que par les charges .W


Merci ! C'est vraiment clair! Pour le premier point, je suis d'accord, mais cela semble être une réponse à la question «Pourquoi ce modèle est appelé PPCA? Les points 2 à 4 sont exactement ce à quoi je m'attendais, j'aurais dû transformer la question en «Quels sont les avantages de prendre un gaussien avant?
Irminsul
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.