Je pense que je sais où l'orateur voulait en venir. Personnellement, je ne suis pas complètement d'accord avec elle, et il y a beaucoup de gens qui ne le sont pas. Mais pour être honnête, il y en a aussi beaucoup qui le font :) Tout d'abord, notez que spécifier la fonction de covariance (noyau) implique de spécifier une distribution préalable sur les fonctions. En changeant simplement le noyau, les réalisations du processus gaussien changent radicalement, à partir des fonctions très lisses et infiniment différenciables générées par le noyau exponentiel carré
aux "spiky", fonctions non différenciables correspondant à un noyau exponentiel (ou noyau Matern avec )ν=1/2
Une autre façon de le voir est d'écrire la moyenne prédictive (la moyenne des prédictions du processus gaussien, obtenue en conditionnant le GP sur les points d'apprentissage) dans un point de test , dans le cas le plus simple d'une fonction moyenne nulle:X∗
y∗= k∗ T( K+ σ2je)- 1y
où est le vecteur de covariances entre le point de test et les points d'apprentissage , est la matrice de covariance des points d'apprentissage, est le terme de bruit (juste défini si votre conférence concernait des prédictions sans bruit, c'est-à-dire une interpolation du processus gaussien), et est le vecteur des observations dans l'ensemble d'apprentissage. Comme vous pouvez le voir, même si la moyenne du GP a priori est nulle, la moyenne prédictive n'est pas nulle du tout, et selon le noyau et le nombre de points d'entraînement, il peut s'agir d'un modèle très flexible, capable d'apprendre extrêmement motifs complexes.x ∗ x 1 ,…, x n Kσσ=0 y =( y 1 ,…, y n )k∗X∗X1, … , XnKσσ= 0y =( y1, … , Yn)
Plus généralement, c'est le noyau qui définit les propriétés de généralisation du GP. Certains noyaux ont la propriété d'approximation universelle , c'est-à-dire qu'ils sont en principe capables d'approximer n'importe quelle fonction continue sur un sous-ensemble compact, à n'importe quelle tolérance maximale prédéfinie, avec suffisamment de points d'apprentissage.
Alors, pourquoi devriez-vous vous soucier de la fonction moyenne? Tout d'abord, une simple fonction moyenne (polynomiale linéaire ou orthogonale) rend le modèle beaucoup plus interprétable, et cet avantage ne doit pas être sous-estimé pour un modèle aussi flexible (donc compliqué) que le GP. Deuxièmement, d'une manière ou d'une autre, la moyenne zéro (ou, pour ce qui vaut la peine, également la moyenne constante) GP aspire à la prédiction loin des données d'entraînement. De nombreux noyaux stationnaires (à l'exception des noyaux périodiques) sont tels que pourk ( xje- x∗) → 0dist( xje, x∗) → ∞. Cette convergence vers 0 peut se produire étonnamment rapidement, en particulier avec le noyau exponentiel carré, et en particulier lorsqu'une courte longueur de corrélation est nécessaire pour bien s'adapter à l'ensemble d'apprentissage. Ainsi, un GP avec une fonction moyenne nulle prédira invariablement dès que vous vous éloignerez de l'ensemble d'apprentissage.y∗≈ 0
Maintenant, cela pourrait avoir du sens dans votre application: après tout, c'est souvent une mauvaise idée d'utiliser un modèle piloté par les données pour effectuer des prédictions loin de l'ensemble des points de données utilisés pour former le modèle. Voir ici pour de nombreux exemples intéressants et amusants de pourquoi cela peut être une mauvaise idée. À cet égard, le GP de moyenne nulle, qui converge toujours vers 0 loin de l'ensemble d'apprentissage, est plus sûr qu'un modèle (comme par exemple un modèle polynomial orthogonal multivarié de haut degré), qui tirera avec plaisir des prédictions incroyablement grandes dès que vous vous éloignez des données d'entraînement.
Dans d'autres cas, cependant, vous souhaiterez peut-être que votre modèle ait un certain comportement asympotique, qui ne doit pas converger vers une constante. Peut-être que la considération physique vous dit que pour suffisamment grand, votre modèle doit devenir linéaire. Dans ce cas, vous voulez une fonction moyenne linéaire. En général, lorsque les propriétés globales du modèle présentent un intérêt pour votre application, vous devez faire attention au choix de la fonction moyenne. Lorsque vous vous intéressez uniquement au comportement local (proche des points d'entraînement) de votre modèle, un GP moyen nul ou constant peut être plus que suffisant.X∗