Efficacité de la régression de Kernel Ridge

La régression de crête peut être exprimée par où est l'étiquette prédite , la matrice d'identification , l'objet pour lequel nous essayons de trouver une étiquette, et la matrice de objets tel que:

\hat{y} = (X^{'} X + a I_{d})^{- 1} X x

$\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x$

\hat{y}

$\hat{y}$

I_{d}

$\mathbf{I}_d$

d \times d

$d \times d$

x

$\mathbf{x}$

X

$\mathbf{X}$

n \times d

$n \times d$

n

$n$

x_{i} = (x_{i, 1}, . . ., x_{i, d}) \in R^{d}

$\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d$

X = (\begin{matrix} x_{1, 1} & x_{1, 2} & \dots & x_{1, d} \\ x_{2, 1} & x_{2, 2} & \dots & x_{2, d} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{n, 1} & x_{1, 2} & \dots & x_{n, d} \end{matrix})

$\mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots & x_{n,d} \end{pmatrix}$

Nous pouvons noyauer ceci comme suit:

\hat{y} = (K + a I_{d})^{- 1} k

$\hat{y} = (\mathbf{\mathcal{K}} + a\mathbf{I}_d)^{-1} \mathbf{k}$

où est la matrice des fonctions du noyau $\mathbf{\mathcal{K}}$ $n \times n$ $K$

K = (\begin{matrix} K (x_{1}, x_{1}) & K (x_{1}, x_{2}) & \dots & K (x_{1}, x_{n}) \\ K (x_{2}, x_{1}) & K (x_{2}, x_{2}) & \dots & K (x_{2}, x_{n}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ K (x_{n}, x_{1}) & K (x_{n}, x_{2}) & \dots & K (x_{n}, x_{n}) \end{matrix})

$\mathcal{K} = \begin{pmatrix} K(\mathbf{x}_1,\mathbf{x}_1) & K(\mathbf{x}_1,\mathbf{x}_2) & \ldots & K(\mathbf{x}_1,\mathbf{x}_n)\\ K(\mathbf{x}_2,\mathbf{x}_1) & K(\mathbf{x}_2,\mathbf{x}_2) & \ldots & K(\mathbf{x}_2,\mathbf{x}_n)\\ \vdots & \vdots & \ddots & \vdots\\ K(\mathbf{x}_n,\mathbf{x}_1) & K(\mathbf{x}_n,\mathbf{x}_2) &\ldots & K(\mathbf{x}_n,\mathbf{x}_n) \end{pmatrix}$

et $\mathbf{k}$ le vecteur $n \times 1$ colonne des fonctions du noyau $K$

k = (\begin{matrix} K (x_{1}, x) \\ K (x_{2}, x) \\ ⋮ \\ K (x_{n}, x) \end{matrix})

$\mathbf{k} = \begin{pmatrix} K(\mathbf{x}_1,\mathbf{x})\\ K(\mathbf{x}_2,\mathbf{x}) \\ \vdots \\ K(\mathbf{x}_n,\mathbf{x}) \end{pmatrix}$

Des questions:

(a) s'il y a plus d'objets que de dimensions, est-il judicieux de ne pas utiliser de noyaux? Par exemple, laissez être une matrice de puis sera une et nous finirons par inverser une matrice de au lieu du matrice que nous aurions à inverser si nous utilisions des noyaux. Est-ce à dire que si nous ne devrions pas utiliser de noyaux? $\mathbf{x}_i$ $\mathbf{X}$ $50 \times 3$ $\mathbf{X}'\mathbf{X}$ $3 \times 3$ $3 \times 3$ $50 \times 50$ $d \leq n$

(b) faut-il utiliser le noyau le plus simple possible? Il semble que les noyaux en régression de crête soient utilisés pour annuler les influences de la dimensionnalité et non pour utiliser certaines propriétés de l'espace des fonctionnalités (contrairement aux machines à vecteurs de support). Bien que les noyaux puissent changer les distances entre les objets, y a-t-il des noyaux populaires souvent utilisés dans la régression des crêtes?

regression ridge-regression kernel-trick

— Hélix
source

«efficacité» a un sens différent dans les statistiques. Voulez-vous dire «complexité informatique»? (dans le titre)

— Memming

Je voulais dire "efficacité algorithmique". Bien qu'il soit vrai que mes questions réduisent essentiellement cela à une "complexité de calcul".

— Helix

(a) Le but de l'utilisation d'un noyau est de résoudre un problème de régression non linéaire dans ce cas. Un bon noyau vous permettra de résoudre des problèmes dans un espace d'entités éventuellement de dimension infinie. Mais, utiliser un noyau linéaire et faire la régression de la crête du noyau dans le double espace revient à résoudre le problème dans l'espace primitif, c'est-à-dire qu'il n'apporte aucun avantage (c'est juste beaucoup plus lent que le nombre d'échantillons augmente que vous avez observé). $K(\mathbf{x,y}) = \mathbf{x}^\top \mathbf{y}$

(b) L'un des choix les plus populaires est le noyau exponentiel carré $K(x,y) = \exp(-\frac{\tau}{2} ||\mathbf{x}-\mathbf{y}||^2)$

$n$ $O(n^3)$

Références:

Bharath Sriperumbudur, Kenji Fukumizu et Gert Lanckriet. Sur la relation entre l'universalité, les noyaux caractéristiques et l'intégration des mesures RKHS. Journal of Machine Learning Research, 9: 773–780, 2010.
Bernhard Schlkopf, Alexander J. Smola. Apprendre avec les noyaux: prendre en charge les machines vectorielles, la régularisation, l'optimisation et au-delà de 2002

— Memming
source