Classification SVM non linéaire avec noyau RBF

J'implémente un classificateur SVM non linéaire avec le noyau RBF. On m'a dit que la seule différence avec un SVM normal était que je devais simplement remplacer le produit scalaire par une fonction du noyau: Je sais comment fonctionne un SVM linéaire normal, c'est-à-dire qu'après avoir résolu le problème d'optimisation quadratique (double tâche), je calcule l'hyperplan diviseur optimal comme et le décalage de l'hyperplan respectivement, où est une liste de mes vecteurs d'apprentissage, sont leurs étiquettes respectives ( ),

K (x_{i}, x_{j}) = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}})

$K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right)$

w^{*} = \sum_{i \in S V} h_{i} y_{i} x_{i}

$w^*=\sum_{i \in SV} h_i y_i x_i$

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} x_{j}^{T} x_{i}))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right)$

x

$x$

y

$y$

y_{i} \in {- 1, 1}

$y_i \in \{-1,1\}$

h

$h$ sont les coefficients lagrangiens et est un ensemble de vecteurs supports. Après cela, je peux utiliser et seuls pour classer facilement: .

S V

$SV$

w^{*}

$w^*$

b^{*}

$b^*$

c_{x} = sign (w^{T} x + b)

$c_x=\text{sign}(w^Tx+b)$

Cependant, je ne pense pas que je puisse faire une telle chose avec un noyau RBF. J'ai trouvé des matériaux suggérant que . Cela faciliterait les choses. Néanmoins, je ne pense pas qu'une telle décomposition existe pour ce noyau et elle n'est mentionnée nulle part. La situation est-elle telle que tous les vecteurs supports sont nécessaires pour le classement? Si oui, comment puis-je classer dans ce cas? $K(x,y)=\phi(x)\phi(y)$

— Jan Hadáček
source

Pas une réponse complète mais j'ai eu ces diapositives à uni: patterns.enm.bris.ac.uk/files/lecture10-2010.pdf

— tristan

Soit représenter votre espace d'entrée, c'est-à-dire l'espace où résident vos points de données. Considérons une fonction telle qu'elle prend un point de votre espace d'entrée et le mappe à un point dans . Maintenant, disons que nous avons mappé tous vos points de données de à ce nouvel espace . Maintenant, si vous essayez de résoudre le svm linéaire normal dans ce nouvel espace au lieu de , vous remarquerez que tous les travaux antérieurs ont simplement la même apparence, sauf que tous les points sont représentés comme $\mathcal{X}$ $\Phi:\mathcal{X} \rightarrow \mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{F}$ $\mathcal{X}$ $x_i$ $\Phi(x_i)$ et au lieu d'utiliser (produit scalaire) qui est le produit intérieur naturel de l'espace euclidien, nous le remplaçons par qui représente le produit intérieur naturel dans le nouvel espace . Donc, à la fin, votre ressemblerait, $x^Ty$ $\langle \Phi(x), \Phi(y) \rangle$ $\mathcal{F}$ $w^*$

w^{*} = \sum_{i \in S V} h_{i} y_{i} Φ (x_{i})

$w^*=\sum_{i \in SV} h_i y_i \Phi(x_i)$

et donc,

⟨ w^{*}, Φ (x) ⟩ = \sum_{i \in S V} h_{i} y_{i} ⟨ Φ (x_{i}), Φ (x) ⟩

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i \langle \Phi(x_i), \Phi(x) \rangle$

De même,

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} ⟨ Φ (x_{j}), Φ (x_{i}) ⟩))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j \langle \Phi(x_j), \Phi(x_i)\rangle\right)\right)$

et votre règle de classification ressemble à: . $c_x=\text{sign}(\langle w, \Phi(x) \rangle+b)$

Jusqu'ici tout va bien, il n'y a rien de nouveau, car nous avons simplement appliqué le SVM linéaire normal à un espace différent. Cependant, la partie magique est la suivante -

Disons qu'il existe une fonction telle que . Ensuite, nous pouvons remplacer tous les produits scalaires ci-dessus par . Un tel est appelé une fonction du noyau. $k:\mathcal{X}\times\mathcal{X}\rightarrow \mathbb{R}$ $k(x_i, x_j) = \langle \Phi(x_i), \Phi(x_j) \rangle$ $k(x_i, x_j)$ $k$

Par conséquent, vos et ressemblent à, $w^*$ $b^*$

⟨ w^{*}, Φ (x) ⟩ = \sum_{i \in S V} h_{i} y_{i} k (x_{i}, x)

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i k(x_i, x)$

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} k (x_{j}, x_{i})))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j k(x_j, x_i)\right)\right)$

Pour quelles fonctions du noyau la substitution ci-dessus est-elle valable? Eh bien, c'est une question légèrement impliquée et vous voudrez peut-être prendre du matériel de lecture approprié pour comprendre ces implications. Cependant, j'ajouterai simplement que ce qui précède est vrai pour le noyau RBF.

Pour répondre à votre question, "La situation est-elle telle que tous les vecteurs supports sont nécessaires pour le classement?" Oui. Comme vous pouvez le remarquer ci-dessus, nous calculons le produit interne de avec au lieu de calculer explicitement. Cela nous oblige à conserver tous les vecteurs de support pour la classification. $w$ $x$ $w$

Remarque: Les dans la section finale ici sont une solution au double du SVM dans l'espace et non . Est-ce à dire que nous devons connaître la fonction manière explicite? Heureusement non. Si vous regardez le double objectif, il se compose uniquement de produit interne et comme nous avons qui nous permet de calculer directement le produit interne, nous n'avons pas besoin de connaître explicitement . Le double objectif ressemble simplement à, $h_i$ $\mathcal{F}$ $\mathcal{X}$ $\Phi$ $k$ $\Phi$

max \sum_{i} h_{i} - \sum_{i, j} y_{i} y_{j} h_{i} h_{j} k (x_{i}, x_{j}) subject to : \sum_{i} y_{i} h_{i} = 0, h_{i} \geq 0

$\max \sum_i h_i - \sum_{i,j} y_i y_j h_i h_j k(x_i, x_j) \\ \text{subject to : } \sum_i y_i h_i = 0, h_i \geq 0$

— TenaliRaman
source

@ JanHadáček Vous êtes les bienvenus! Bon à savoir que ma réponse est compréhensible, je craignais qu'elle soit trop condensée :-)

— TenaliRaman

Très belle explication

— London guy