Confusion liée à la distribution prédictive des processus gaussiens

8

J'ai cette confusion liée à la distribution prédictive du processus gaussien. Je lisais ce papier

entrez la description de l'image ici

Je n'ai pas compris comment l'intégration a donné ce résultat. Qu'est-ce que P (u * | x *, u). Aussi comment la covariance de la distribution postérieure est-elle $\sigma^2(\sigma^2I+K)^{-1}K$

regression normal-distribution gaussian-process

— user34790
source

+1, j'ai à peu près le même problème. Après avoir cherché sur le Web, j'ai trouvé quelque chose de plus déroutant. Voir ces notes de cours de Rasmussen, videolectures.net/site/normal_dl/tag=12546/… . Faites attention à la page 15.

— avocat

4

$P(u*|x*,u) ~ N(u(x*)$ , $\sigma^2$ ), directement à partir de la définition de $u*$ .

Notez que l'intégration de deux pdf gaussiens est normalisée. Il peut être démontré par le fait que

\int_{- \infty}^{\infty} P (u^{*} | x^{*}, u) d u^{*} = \int_{- \infty}^{\infty} \int_{u} P (u^{*} | x^{*}, u) P (u | s) d u d u^{*} = \int_{u} P (u | s) \int_{- \infty}^{\infty} P (u^{*} | x^{*}, u) d u^{*} d u = \int_{u} P (u | s) \int_{- \infty}^{\infty} N (u^{*} - u (x *); 0, σ^{2}) d u^{*} d u = \int_{u} P (u | s) d u \int_{- \infty}^{\infty} N (u^{*}; 0, σ^{2}) d u^{*} = 1

$\int_{-\infty}^{\infty}P(u^*|x^*, u)du^* =\int_{-\infty}^{\infty}\int_{u}P(u^*|x^*, u)P(u|s)dudu^* =\int_{u}P(u|s)\int_{-\infty}^{\infty}P(u^*|x^*, u)du^*du =\int_{u}P(u|s)\int_{-\infty}^{\infty}N(u^*-u(x*); 0, \sigma^2)du^*du =\int_{u}P(u|s)du\int_{-\infty}^{\infty}N(u^*; 0, \sigma^2)du^* =1$

Avec la normalisation à l'écart,

$\int_{u}P(u^*|x^*, u)P(u|s)du$ est intégré par les conseils suivants:

Remplacer les 2 pdf normaux dans l'équation et éliminer les termes indépendants de $u$ , comme nous l'avons déjà montré la normalisation.
Utiliser l'achèvement de l'astuce carrée pour intégrer l'exponentielle multivariée, c'est-à-dire construire un pdf normal multivarié avec les termes exponentiels restants. Reportez-vous à cette vidéo YouTube .
Finalement, vous vous retrouvez avec une exponentielle en termes de $u^*$ , on peut observer que c'est encore un facteur loin d'un pdf normal. Encore une fois, la preuve de normalisation nous donne la certitude que la forme finale est bien un pdf normal. Le pdf est le même que celui donné dans le message d'origine.

— Ruohan Wang
source

1

Cela devrait être la réponse acceptée car elle répond en fait à la question.

— Michael

2

Les dérivations détaillées des équations pour la distribution conditionnelle d'un processus gaussien peuvent être trouvées dans le chapitre 2 et l' annexe A du livre [Rasmussen2005].

Jetez un œil à (Eq. 2.23, 2.24) et plus, qui sont basés sur les identités gaussiennes (A.6) et la propriété de la matrice (A.11).

[Rasmussen2005] CE Rasmussen et C. Williams. Processus gaussiens pour l'apprentissage automatique . MIT Press, 2005.

— Emile
source

J'ai le même problème que l'OP, et je dois dire que je n'ai pas découvert les dérivations détaillées dans le livre GPML. Et j'étais encore plus confus après avoir lu les notes de cours que j'ai posté dans le commentaire ci-dessus. Dans ces notes, le postérieur

p (u | S)

$p(u|S)$ donné par Rasmussen est différent de celui de l'équation de OP

(5)

$(5)$ . J'ai fait la dérivation moi-même, et je suis d'accord sur le postérieur

p (u | S)

$p(u|S)$ étant le même que l'équation

(5)

$(5)$ , Je pense même que les notes de cours de Rasmussen pourraient être erronées à ce stade. Si je manque quelque chose ou fais une erreur, veuillez me corriger. Et j'espère que vous pourrez élaborer sur la dérivation.

— avocat

Cela ne répond pas aux questions.

— Nathan Explosion

@avocado Je me rends compte que c'est beaucoup d'années de retard, mais au cas où cela pourrait encore vous aider (ou toute autre personne à venir), veuillez noter que

K - K (K + σ^{2} I)^{- 1} K

$K - K(K + \sigma^2 I)^{-1}K$ est précisément égal à

σ^{2} (K + σ^{2} I)^{- 1} K

$\sigma^2 (K + \sigma^2 I)^{-1} K$ , aussi bien que

σ^{2} I - σ^{2} I (K + σ^{2} I)^{- 1} σ^{2} I

$\sigma^2 I - \sigma^2 I (K + \sigma^2 I)^{-1} \sigma^2 I$ . Ainsi, le postérieur est le même que l'équation (5) d'OP et comme celui donné dans les notes de cours de Rasmussen, ils sont simplement exprimés différemment.

— duckmayr