J'essaie de régler les hyperparamètres de l'algorithme de régression de processus gaussien que j'ai implémenté. Je veux simplement maximiser la probabilité marginale de log donnée par la formule où K est la matrice de covariance avec le éléments K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^ {- 1 } \ delta_ {ij} où M = lI et a, b et l sont des hyperparamètres.
la dérivée partielle des paramètres log vraisemblance marginale wrt est donnée par les éléments suivants
Comme les entrées de sont fonction des paramètres, de sorte faire dérivés et inverse de . Cela signifie que, lorsqu'un optimiseur basé sur un gradient est utilisé, l'évaluation du gradient à un point donné (valeur de paramètre) nécessitera un recalcul de la matrice de covariance. Dans mon application, cela n'est pas possible car le calcul de la matrice de covariance à partir de zéro et le calcul de son inverse à chaque itération de la montée en gradient est trop cher. Ma question est de savoir quelles sont mes options pour trouver une assez bonne combinaison de ces trois paramètres? et je ne sais pas non plus quel paramètre optimiser en premier et j'apprécierais également toute indication sur cette question.