Je pense que la clé de la magie est la finesse. Ma longue réponse qui suit est simplement pour expliquer cette finesse. Ce peut être ou ne pas être une réponse à laquelle vous vous attendez.
Réponse courte:
Étant donné un noyau défini positif , il existe son espace correspondant de fonctions . Les propriétés des fonctions sont déterminées par le noyau. Il s’avère que si est un noyau gaussien, les fonctions dans sont très douces. Ainsi, une fonction apprise (par exemple, une fonction de régression, les composants principaux dans RKHS comme dans le noyau PCA) est très lisse. En règle générale, l'hypothèse de lissage est judicieuse pour la plupart des jeux de données que nous voulons aborder. Ceci explique pourquoi un noyau gaussien est magique.h k hkHkH
Réponse longue pour laquelle un noyau gaussien donne des fonctions lisses:
Un noyau défini positif définit (implicitement) un produit intérieur
pour le vecteur de caractéristiques construit à partir de votre entrée et
est un espace de Hilbert. La notation
signifie un produit intérieur entre et . Pour notre propos, vous pouvez imaginer comme étant l’espace euclidien habituel mais éventuellement avec un nombre inifinite de dimensions. Imaginez le vecteur habituel infiniment long, commek ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H φ ( x ) x H ⟨ φ ( x ) , φ ( y ) ⟩ φ ( x ) φ ( y ) H φ ( x ) = ( φ 1 ( xk(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…). Dans les méthodes du noyau, est un espace de fonctions appelé reproduction de l’espace de Hilbert (RKHS) du noyau. Cet espace a une propriété spéciale appelée "reproduire la propriété" qui est celle qui est . Cela dit que pour évaluer , vous devez d’abord construire un vecteur de fonctions (infiniment long comme indiqué) pour . Ensuite, vous construisez votre vecteur d'entité pour noté (infiniment long). L'évaluation de est donnée en prenant un produit interne des deux. Évidemment, en pratique, personne ne construira un vecteur infiniment long. Puisque nous ne nous soucions que de son produit intérieur, nous évaluons directement le noyauHf(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)k. Contourner le calcul des caractéristiques explicites et calculer directement son produit interne est appelé "l'astuce du noyau".
Quelles sont les fonctionnalités?
Je n'arrêtais pas de dire les caractéristiques sans spécifier ce qu'elles étaient. Étant donné un noyau , les fonctionnalités ne sont pas uniques. Mais
est uniquement déterminé. Pour expliquer la régularité des fonctions, considérons les fonctionnalités de Fourier. Supposons un noyau invariant par traduction , ce qui signifie
c’est-à-dire que le noyau ne dépend que de la différence des deux arguments. Le noyau gaussien a cette propriété. Soit la transformation de Fourier de .ϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
Dans ce point de vue de Fourier, les caractéristiques de
sont données par . Cela signifie que la fonction de représentation de votre fonction
est donnée par sa transformation de Fourier divisée par la transformation de Fourer du noyau . La représentation caractéristique de , qui est
est
où . On peut montrer que la propriété de reproduction est valide (un exercice pour les lecteurs).ffkxφ(x)(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)i=√(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Comme dans tout espace de Hilbert, tous les éléments appartenant à cet espace doivent avoir une norme finie. Considérons la norme au carré d'un :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Alors, quand cette norme est-elle finie, c’est-à-dire que appartient à l’espace? C’est lorsque chute plus vite que sorte que la somme converge. Maintenant, la transformée de Fourier d'un noyau gaussienff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
est un autre Gaussien où décroît de façon exponentielle avec . Donc, si doit être dans cet espace, sa transformée de Fourier doit chuter encore plus vite que celle de . Cela signifie que la fonction n'aura effectivement que quelques composants basse fréquence avec des poids élevés. Un signal avec uniquement des composants basse fréquence ne «bouge pas» beaucoup. Ceci explique pourquoi un noyau gaussien vous donne une fonction fluide.k^llfk
Extra: Qu'en est-il d'un noyau Laplace?
Si vous considérez un noyau de Laplace ,
sa transformation de Fourier est une distribution de Cauchy qui tombe beaucoup plus lentement que l’exponentielle fonction dans la transformée de Fourier d'un noyau gaussien. Cela signifie qu'une fonction aura plus de composantes haute fréquence. En conséquence, la fonction donnée par un noyau Laplace est «plus rugueuse» que celle donnée par un noyau gaussien.k(x,y)=exp(−∥x−y∥σ)f
Quelle est la propriété du noyau gaussien que n’ont pas les autres noyaux?
Indépendamment de la largeur gaussienne, une des propriétés est que le noyau gaussien est «universel». Intuitivement, cela signifie que, étant donné une fonction continue bornée (arbitraire), il existe une fonction telle que et
sont proches (au sens de jusqu'à une précision arbitraire nécessaire. Fondamentalement, cela signifie que le noyau gaussien donne des fonctions qui peuvent approcher des fonctions "sympas" (liées, continues) de manière arbitraire. Les noyaux gaussien et laplace sont universels. Un noyau polynomial, par exemple, ne l'est pas.gf∈Hfg∥⋅∥∞)
Pourquoi ne faisons-nous pas de la norme, disons, un fichier PDF de Cauchy et attendons-nous les mêmes résultats?
En général, vous pouvez faire tout ce que vous voulez tant que le résultat
est positif défini. La définition positive est définie comme suit:
pour tout , et tout
(ensemble de nombres naturels) . Si n'est pas défini positif, il ne correspond pas à un espace de produit interne. Toutes les analyses sont interrompues car vous n’avez même pas un espace de fonctions
comme mentionné. Néanmoins, cela peut fonctionner de manière empirique. Par exemple, le noyau hyperbolique tangent (voir le numéro 7 sur cette page )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
qui est destiné à imiter les unités d'activation sigmoïde dans les réseaux de neurones, n'est défini comme positif que pour certains paramètres de et . Pourtant, il a été rapporté que cela fonctionne dans la pratique.αc
Qu'en est-il des autres types de fonctionnalités?
J'ai dit que les fonctionnalités ne sont pas uniques. Pour le noyau gaussien, un autre ensemble de fonctionnalités est fourni par l’extension Mercer . Voir la section 4.3.1 du célèbre livre de processus gaussien . Dans ce cas, les caractéristiques sont des polynômes d'Hermite évalués à .ϕ(x)x