Carte des fonctionnalités du noyau gaussien


24

Dans SVM, le noyau gaussien est défini comme: où x, y \ in \ mathbb {R ^ n} . Je ne connais pas l'équation explicite de \ phi . Je veux le savoir.

K(X,y)=exp(-X-y222σ2)=ϕ(X)Tϕ(y)
X,yRnϕ

Je veux aussi savoir si

jecjeϕ(Xje)=ϕ(jecjeXje)
cjeR . Maintenant, je pense que ce n'est pas égal, car l'utilisation d'un noyau gère la situation où le classeur linéaire ne fonctionne pas. Je sais que ϕ projette x dans un espace infini. Donc, s'il reste toujours linéaire, peu importe le nombre de dimensions, svm ne peut toujours pas faire une bonne classification.

pourquoi ce noyau implique-t-il une transformation? Ou faites-vous référence à l'espace caractéristique associé?
Placidia

Oui, quel est l'espace des fonctionnalités ϕ() pour que ϕT(X)ϕ(X)=eXp(-12σ2X-X2)
user27886

Réponses:


20

Vous pouvez obtenir l'équation explicite de ϕ pour le noyau gaussien via l'expansion de la série Tailor de eX . Pour simplifier la notation, supposons XR1 :

ϕ(X)=e-X2/2σ2[1,11!σ2X,12!σ4X2,13!σ6X3,]T

Ceci est également discuté plus en détail dans ces diapositives par Chih-Jen Lin de NTU (diapositive 11 en particulier). Notez que dans les diapositives est utilisé comme paramètre de noyau.γ=12σ2

L'équation dans l'OP n'est valable que pour le noyau linéaire.


2
Salut, mais cette équation ci-dessus ne convient qu'à une seule dimension.
Vivian

Donc, ici, l'espace Hilbert du noyau reproducteur est un sous-espace de , n'est-ce pas? 2
The_Anomaly

Existe-t-il également une représentation explicite du noyau laplacien?
Felix Crazzolara

13

Pour tout noyau psd valide , il existe une carte de fonctionnalité telle que . L'espace et l'incorporation n'ont en fait pas besoin d'être uniques, mais il existe une paire unique importante connue sous le nom d'espace de Hilbert du noyau reproducteur (RKHS).H φk:X×XR k ( x , y ) = φ ( x ) , φ ( y ) H ( H , φ )φ:XHk(x,y)=φ(x),φ(y)HHφ(H,φ)

Le RKHS est discuté par: Steinwart, Hush and Scovel, An Explicit Description of the Reproducing Kernel Hilbert Spaces of Gaussian RBF Kernels , IEEE Transactions on Information Theory 2006 ( doi , pdf gratuit de citeseer ).

C'est un peu compliqué, mais cela se résume à ceci: définir comme e n ( z ) : = en:CC

en(z):=(2σ2)nn!zneσ2z2.

Soit une séquence s'étendant sur tous les -tuples d'entiers non négatifs; si , peut-être , , , etc. Désignons le ème composant du ème tuple par . d d = 3 n ( 0 ) = ( 0 , 0 , 0 ) n ( 1 ) = ( 0 , 0 , 1 ) n ( 2 ) = ( 0 , 1 , 1 ) j i n i jn:N0N0ddd=3n(0)=(0,0,0)n(1)=(0,0,1)n(2)=(0,1,1)jinij

Alors le ème composant de est . Alors cartes vecteurs à des vecteurs complexes de dimension infinie.φ ( x ) d j = 1 e n i j ( x j ) φ R diφ(x)j=1denij(xj)φR

Le problème est que nous devons en outre définir des normes pour ces vecteurs complexes de dimension infinie d'une manière spéciale; voir le document pour plus de détails.


Steinwart et al. donne également une intégration plus simple (à mon avis) dans , l'espace Hilbert des fonctions intégrables au carré de : Notez que est elle - même une fonction de à . C'est fondamentalement la densité d'un gaussien dimensionnel avec une moyenne et une covariance ; seule la constante de normalisation est différente. Ainsi, lorsque nous prenons R dR Φ σ ( x ) = ( 2 σ ) dL2(R)RRΦσ(x)RdRdx1

Φσ(X)=(2σ)2π4e-2σ2X-22.
Φσ(X)RRXΦ(x),Φ(y)L2=[Φ(x)](t)14σ2je
Φ(X),Φ(y)L2=[Φ(X)](t)[Φ(y)](t)t,
nous prenons le produit des fonctions de densité gaussiennes , qui est lui-même un certain temps constant une fonction de densité gaussienne. Lorsque vous faites cette intégrale par , alors, la constante qui tombe finit par être exactement .tk(X,y)

Ce ne sont pas les seuls plongements qui fonctionnent.

Un autre est basé sur la transformée de Fourier, que le célèbre article de Rahimi et Recht ( Random Features for Large-Scale Kernel Machines , NIPS 2007) se rapproche très bien.

Vous pouvez également le faire en utilisant la série Taylor: en fait la version infinie de Cotter, Keshet et Srebro, Explicit Approximations of the Gaussian Kernel , arXiv: 1109.4603 .


1
Douglas Zare a donné une version 1d de l'intégration "plus simple" dans un fil intéressant ici .
Dougal

Vous trouverez ici une explication plus «intuitive» que le peut mapper sur un intervalle de dimension égal à la taille de l'échantillon d'entraînement, même pour un échantillon d'entraînement infini: stats.stackexchange.com/questions/80398/…Φ

6

Il me semble que votre deuxième équation ne sera vraie que si est une cartographie linéaire (et donc est un noyau linéaire). Comme le noyau gaussien n'est pas linéaire, l'égalité ne tiendra pas (sauf peut-être dans la limite lorsque va à zéro).K σϕKσ


σ0
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.