Méthode Nystroem pour l'approximation du noyau

J'ai lu sur la méthode Nyström pour aproximation du noyau de bas rang. Cette méthode est implémentée dans scikit-learn [1] comme méthode pour projeter des échantillons de données à une approximation de bas rang du mappage des fonctionnalités du noyau.

À ma connaissance, étant donné un ensemble d'apprentissage et une fonction de noyau, il génère une approximation de bas rang de la matrice de noyau en appliquant SVD à et . $\{x_i\}_{i=1}^n$ $n \times n$ $K$ $W$ $C$

$K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ]$ $C = \left [\begin{array}{cc} W \\ K_{21} \end{array}\right ]$ , $W \in \mathbb{R}^{l\times l}$

Cependant, je ne comprends pas comment l'approximation de bas rang de la matrice du noyau peut être utilisée pour projeter de nouveaux échantillons dans l'espace des fonctionnalités du noyau approché . Les articles que j'ai trouvés (par exemple [2]) ne sont pas d'une grande utilité, car ils sont peu didactiques.

De plus, je suis curieux de connaître la complexité de calcul de cette méthode, à la fois dans les phases de formation et de test.

[1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx

[2] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf

— Daniel López
source

Dérivons l'approximation de Nyström d'une manière qui devrait rendre les réponses à vos questions plus claires.

L'hypothèse clé dans Nyström est que la fonction du noyau est de rang . (Vraiment, nous supposons qu'il est approximativement de rang , mais pour simplifier, supposons que c'est exactement le rang pour l'instant.) Cela signifie que toute matrice de noyau va avoir un rang au plus , et en particulier est le rang . Il y a donc valeurs propres non nulles, et nous pouvons écrire la composition propre de comme $m$ $m$ $m$ $m$

K = [\begin{matrix} k (x_{1}, x_{1}) & \dots & k (x_{1}, x_{n}) \\ ⋮ & ⋱ & ⋮ \\ k (x_{n}, x_{1}) & \dots & k (x_{n}, x_{n}) \end{matrix}],

$K = \begin{bmatrix} k(x_1, x_1) & \dots & k(x_1, x_n) \\ \vdots & \ddots & \vdots \\ k(x_n, x_1) & \dots & k(x_n, x_n) \end{bmatrix} ,$

m

$m$

m

$m$

K

$K$

K = U Λ U^{T}

$K = U \Lambda U^T$ avec des vecteurs propres stockés dans , de forme , et des valeurs propres disposées dans , une matrice diagonale .

U

$U$

n \times m

$n \times m$

Λ

$\Lambda$

m \times m

$m \times m$

Alors, choisissons éléments, généralement uniformément au hasard mais éventuellement selon d'autres schémas - tout ce qui compte dans cette version simplifiée est que soit de rang complet. Une fois que nous le faisons, il suffit de réétiqueter les points afin de nous retrouver avec la matrice du noyau en blocs: où nous évaluons chaque entrée dans (qui est ) et ( ), mais nous ne voulons pas évaluer les entrées dans . $m$ $K_{11}$

K = [\begin{matrix} K_{11} & K_{21}^{T} \\ K_{21} & K_{22} \end{matrix}],

$K = \begin{bmatrix} K_{11} & K_{21}^T \\ K_{21} & K_{22} \end{bmatrix} ,$

K_{11}

$K_{11}$

m \times m

$m \times m$

K_{21}

$K_{21}$

(n - m) \times m

$(n-m) \times m$

K_{22}

$K_{22}$

Maintenant, nous pouvons également diviser la composition d'origine en fonction de cette structure de bloc: où est et est . Mais notez que nous avons maintenant . On peut donc trouver et en composant par eigendecomposant la matrice connue .

\begin{aligned} K & = U Λ U^{T} \\ = [\begin{matrix} U_{1} \\ U_{2} \end{matrix}] Λ {[\begin{matrix} U_{1} \\ U_{2} \end{matrix}]}^{T} \\ = [\begin{matrix} U_{1} Λ U_{1}^{T} & U_{1} Λ U_{2}^{T} \\ U_{2} Λ U_{1}^{T} & U_{2} Λ U_{2}^{T} \end{matrix}], \end{aligned}

$\begin{align} K &= U \Lambda U^T \\&= \begin{bmatrix}U_1 \\ U_2\end{bmatrix} \Lambda \begin{bmatrix}U_1 \\ U_2\end{bmatrix}^T \\&= \begin{bmatrix} U_1 \Lambda U_1^T & U_1 \Lambda U_2^T \\ U_2 \Lambda U_1^T & U_2 \Lambda U_2^T \end{bmatrix} ,\end{align}$

U_{1}

$U_1$

m \times m

$m \times m$

U_{2}

$U_2$

(n - m) \times m

$(n-m) \times m$

K_{11} = U_{1} Λ U_{1}^{T}

$K_{11} = U_1 \Lambda U_1^T$

U_{1}

$U_1$

Λ

$\Lambda$

K_{11}

$K_{11}$

Nous savons aussi que . Ici, nous savons tout dans cette équation sauf , donc nous pouvons résoudre pour quelles valeurs propres cela implique: multiplier à droite des deux côtés par pour obtenir Nous avons maintenant tout ce dont nous avons besoin pour évaluer : $K_{21} = U_2 \Lambda U_1^T$ $U_2$ $(\Lambda U_1^T)^{-1} = U_1 \Lambda^{-1}$

U_{2} = K_{21} U_{1} Λ^{- 1} .

$U_2 = K_{21} U_1 \Lambda^{-1} .$

K_{22}

$K_{22}$

\begin{aligned} K_{22} & = U_{2} Λ U_{2}^{T} \\ = (K_{21} U_{1} Λ^{- 1}) Λ {(K_{21} U_{1} Λ^{- 1})}^{T} \\ = K_{21} U_{1} (Λ^{- 1} Λ) Λ^{- 1} U_{1}^{T} K_{21}^{T} \\ = K_{21} U_{1} Λ^{- 1} U_{1}^{T} K_{21}^{T} \\ (*) & = K_{21} K_{11}^{- 1} K_{21}^{T} \\ (**) & = (K_{21} K_{11}^{- \frac{1}{2}}) {(K_{21} K_{11}^{- \frac{1}{2}})}^{T} . \end{aligned}

$\begin{align} K_{22} &= U_2 \Lambda U_2^T \\&= \left(K_{21} U_1 \Lambda^{-1}\right) \Lambda \left(K_{21} U_1 \Lambda^{-1}\right)^T \\&= K_{21} U_1 (\Lambda^{-1} \Lambda) \Lambda^{-1} U_1^T K_{21}^T \\&= K_{21} U_1 \Lambda^{-1} U_1^T K_{21}^T \\&= K_{21} K_{11}^{-1} K_{21}^T \tag{*} \\&= \left( K_{21} K_{11}^{-\frac12} \right) \left( K_{21} K_{11}^{-\frac12} \right)^T \tag{**} .\end{align}$

Dans (*), nous avons trouvé une version de l'incorporation de Nyström que vous auriez pu voir simplement comme la définition. Cela nous indique les valeurs effectives du noyau que nous imputons pour le bloc . $K_{22}$

Dans (**), nous voyons que la matrice d' , qui est la forme , correspond à ces valeurs de noyau imputées. Si nous utilisons pour les points, nous avons un ensemble de caractéristiques à dimensions Nous pouvons simplement vérifier rapidement que correspond à la matrice de noyau correcte: $K_{21} K_{11}^{-\frac12}$ $(n-m) \times m$ $K_{11}^{\frac12}$ $m$ $m$

Φ = [\begin{matrix} K_{11}^{\frac{1}{2}} \\ K_{21} K_{11}^{- \frac{1}{2}} \end{matrix}] .

$\Phi = \begin{bmatrix} K_{11}^{\frac12} \\ K_{21} K_{11}^{-\frac12} \end{bmatrix} .$

Φ

$\Phi$

\begin{aligned} Φ Φ^{T} & = [\begin{matrix} K_{11}^{\frac{1}{2}} \\ K_{21} K_{11}^{- \frac{1}{2}} \end{matrix}] {[\begin{matrix} K_{11}^{\frac{1}{2}} \\ K_{21} K_{11}^{- \frac{1}{2}} \end{matrix}]}^{T} \\ = [\begin{matrix} K_{11}^{\frac{1}{2}} K_{11}^{\frac{1}{2}} & K_{11}^{\frac{1}{2}} K_{11}^{- \frac{1}{2}} K_{21}^{T} \\ K_{21} K_{11}^{- \frac{1}{2}} K_{11}^{\frac{1}{2}} & K_{21} K_{11}^{- \frac{1}{2}} K_{11}^{- \frac{1}{2}} K_{21}^{T} \end{matrix}] \\ = [\begin{matrix} K_{11} & K_{21}^{T} \\ K_{21} & K_{21} K_{11}^{- 1} K_{21}^{T} \end{matrix}] \\ = K . \end{aligned}

$\begin{align} \Phi \Phi^T &= \begin{bmatrix} K_{11}^{\frac12} \\ K_{21} K_{11}^{-\frac12} \end{bmatrix} \begin{bmatrix} K_{11}^{\frac12} \\ K_{21} K_{11}^{-\frac12} \end{bmatrix}^T \\&=\begin{bmatrix} K_{11}^{\frac12} K_{11}^{\frac12} & K_{11}^{\frac12} K_{11}^{-\frac12} K_{21}^T \\ K_{21} K_{11}^{-\frac12} K_{11}^{\frac12} & K_{21} K_{11}^{-\frac12} K_{11}^{-\frac12} K_{21}^T \end{bmatrix} \\&=\begin{bmatrix} K_{11} & K_{21}^T \\ K_{21} & K_{21} K_{11}^{-1} K_{21}^T \end{bmatrix} \\&= K .\end{align}$

Donc, tout ce que nous devons faire est de former notre modèle d'apprentissage régulier avec les fonctionnalités dimensionnelles . Ce sera exactement le même (sous les hypothèses que nous avons fait) que la version kernelized du problème d'apprentissage avec . $m$ $\Phi$ $K$

Maintenant, pour un point de données individuel , les fonctionnalités de correspondent à Pour un point dans la partition 2, le vecteur n'est que la ligne appropriée de , de sorte que l'empilement cela nous donne - donc est d'accord pour les points de la partition 2. Cela fonctionne aussi dans la partition 1: là, le vecteur est une rangée de , donc les empiler devient , encore une fois d'accord avec $x$ $\Phi$

ϕ (x) = [\begin{matrix} k (x, x_{1}) & \dots & k (x, x_{m}) \end{matrix}] K_{11}^{- \frac{1}{2}} .

$\phi(x) = \begin{bmatrix} k(x, x_1) & \dots & k(x, x_m) \end{bmatrix} K_{11}^{-\frac12} .$

x

$x$

[\begin{matrix} k (x, x_{1}) & \dots & k (x, x_{m}) \end{matrix}]

$\begin{bmatrix} k(x, x_1) & \dots & k(x, x_m) \end{bmatrix}$

K_{21}

$K_{21}$

K_{21} K_{11}^{- \frac{1}{2}}

$K_{21} K_{11}^{-\frac12}$

ϕ (x)

$\phi(x)$

K_{11}

$K_{11}$

K_{11} K_{11}^{- \frac{1}{2}} = K_{11}^{\frac{1}{2}}

$K_{11} K_{11}^{-\frac12} = K_{11}^{\frac12}$

Φ

$\Phi$ . Donc ... c'est toujours vrai pour un point de test invisible au moment de la formation . Vous faites juste la même chose: Parce que nous avons supposé que le noyau était de rang , la matrice est également de rang , et la reconstruction de est toujours exacte avec exactement la même logique que pour .

x_{new}

$x_\text{new}$

Φ_{test} = K_{test, 1} K_{11}^{- \frac{1}{2}} .

$\Phi_\text{test} = K_{\text{test},1} K_{11}^{-\frac12} .$

m

$m$

[\begin{matrix} K_{train} & K_{train,test} \\ K_{test,train} & K_{test} \end{matrix}]

$\begin{bmatrix}K_{\text{train}} & K_{\text{train,test}} \\ K_{\text{test,train}} & K_{\text{test}} \end{bmatrix}$

m

$m$

K_{test}

$K_\text{test}$

K_{22}

$K_{22}$

Ci-dessus, nous avons supposé que la matrice du noyau était exactement de rang . Ce ne sera généralement pas le cas; pour un noyau gaussien, par exemple, est toujours de rang , mais ces dernières valeurs propres chutent assez rapidement, donc ça va être proche d' une matrice de rang , et nos reconstructions de ou vont être proches des vraies valeurs mais pas exactement les mêmes. Ce seront de meilleures reconstructions à mesure que l'espace propre de se rapprochera de celui de

K

$K$

m

$m$

K

$K$

n

$n$

m

$m$

K_{21}

$K_{21}$

K_{test, 1}

$K_{\text{test},1}$

K_{11}

$K_{11}$

K

$K$ dans l'ensemble, c'est pourquoi le choix des bons points est important dans la pratique.

m

$m$

Notez également que si a des valeurs propres nulles, vous pouvez remplacer les inverses par des pseudoinverses et tout fonctionne toujours; vous venez de remplacer dans la reconstruction par . $K_{11}$ $K_{21}$ $K_{21} K_{11}^\dagger K_{11}$

Vous pouvez utiliser le SVD au lieu de la composition eigend si vous le souhaitez; puisque est psd, c'est la même chose, mais le SVD pourrait être un peu plus robuste à une légère erreur numérique dans la matrice du noyau et ainsi, c'est ce que fait scikit-learn. L' implémentation réelle de scikit-learn fait cela, bien qu'elle utilise à l'inverse de la pseudoinverse. $K$ $\max(\lambda_i, 10^{-12})$

— Dougal
source

Lorsque est semi-défini positif, la composition de l’égalité coïncide avec la SVD. scikit-learn, car en raison d'une erreur numérique, peut être légèrement non psd, calcule à la place et utilise , donc que caractéristiques de devenir . C'est la même chose, en gros.

A

$A$

U Λ U^{T}

$U \Lambda U^T$

A

$A$

U Σ V^{T}

$U \Sigma V^T$

A^{- \frac{1}{2}} = V Σ^{- \frac{1}{2}} V^{T}

$A^{-\frac12} = V \Sigma^{-\frac12} V^T$

A

$A$

A V Σ^{- \frac{1}{2}} V^{T} = U Σ V^{T} V Σ^{- \frac{1}{2}} V^{T} = U Σ^{\frac{1}{2}} V^{T} = A^{\frac{1}{2}}

$A V \Sigma^{-\frac12} V^T = U \Sigma V^T V \Sigma^{-\frac12} V^T = U \Sigma^{\frac12} V^T = A^{\frac12}$

— Dougal

Oups, désolé, oui, ils utilisent . Tout n'a pas vraiment depuis , mais comme ils font la transposent les caractéristiques pour fin comme .

U Σ^{- \frac{1}{2}} V^{T} = K^{- \frac{1}{2}}

$U \Sigma^{-\frac12} V^T = K^{-\frac12}$

U \approx V

$U \approx V$

K_{11}

$K_{11}$

U Σ V^{T} V Σ^{- \frac{1}{2}} U^{T} = U Σ^{\frac{1}{2}} U^{T}

$U\Sigma V^T V \Sigma^{-\frac12} U^T = U \Sigma^{\frac12} U^T$

— Dougal

Élever une matrice diagonale à une puissance équivaut à élever chaque élément à une puissance, et . Dans la notation de diffusion numpy, la multiplication par élément par un vecteur est identique à la multiplication à droite par une matrice diagonale. En outre, que les utilisations de code pour signifier ce que j'appelle .

x^{- \frac{1}{2}} = 1 / \sqrt{x}

$x^{-\frac12} = 1 / \sqrt x$

V

$V$

V^{T}

$V^T$

— Dougal

Oups, désolé, cela ne devrait être que jusqu'à (dans l'ordre de réétiquetage, de sorte que ce soient les points de base de Nyström). Réparera.

x_{m}

$x_m$

— Dougal

x

$x$ est un point de données, sa dimension n'est pas spécifiée ici. pourrait être dans , ou ce pourrait être une chaîne ou quelque chose; juste dire que , de sorte que . Alors empile juste pour entrées différentes.

x

$x$

R^{d}

$\mathbb R^d$

x \in X

$x \in \mathcal X$

k : X \times X \to R

$k : \mathcal X \times \mathcal X \to \mathbb R$

ϕ : X \to R^{m}

$\phi : \mathcal X \to \mathbb R^m$

k (x, x_{i})

$k(x, x_i)$

m

$m$

— Dougal