Je lis ce papier préimprimé et j'ai des difficultés à suivre leur dérivation des équations pour la régression du processus gaussien. Ils utilisent le réglage et la notation de Rasmussen & Williams . Ainsi, on suppose un additif, de moyenne nulle, stationnaire et normalement distribué avec la variance :
Un GP avant avec une moyenne nulle est supposé pour , ce qui signifie que , est un vecteur gaussien de moyenne 0 et de matrice de covariance∀ d ∈ N f = { f ( x 1 ) , … , f ( x d ) }
Désormais, nous supposons que les hyperparamètres sont connus. Alors l'équation (4) du papier est évidente:
Voici les doutes:
Équation (5):
E [ y | f ] = f ≠ 0 f , mais je suppose que parce que quand je conditionne sur , puis où est un vecteur constant et seulement est aléatoire. Correct?
Quoi qu'il en soit, c'est l'équation (6) qui est plus obscure pour moi:
Ce n'est pas la forme habituelle du théorème de Bayes. Le théorème de Bayes serait
Je comprends en quelque sorte pourquoi les deux équations sont les mêmes: intuitivement, le vecteur de réponse ne dépend que du vecteur latent correspondant , conditionnant ainsi sur ou sur devrait conduire à la même distribution. Cependant, c'est une intuition, pas une preuve! Pouvez-vous m'aider à montrer pourquoif f ( f , f ∗ )