Expliquer les étapes de l'algorithme LLE (local linear embedding)?

Je comprends le principe de base derrière l'algorithme pour LLE se compose de trois étapes.

Trouver le voisinage de chaque point de données par une métrique telle que k-nn.
Trouvez des poids pour chaque voisin qui dénotent l'effet du voisin sur le point de données.
Construire l'incorporation de faible dimension des données sur la base des poids calculés.

Mais l'explication mathématique des étapes 2 et 3 prête à confusion dans tous les manuels et ressources en ligne que j'ai lus. Je ne peux pas expliquer pourquoi les formules sont utilisées.

Comment ces étapes sont-elles exécutées dans la pratique? Existe-t-il un moyen intuitif d'expliquer les formules mathématiques utilisées?

Références: http://www.cs.nyu.edu/~roweis/lle/publications.html

— User1234321232
source

L'incorporation linéaire locale (LLE) élimine le besoin d'estimer la distance entre des objets distants et récupère la structure non linéaire globale par ajustements linéaires locaux. Le LLE est avantageux car il n'implique aucun paramètre tel que les taux d'apprentissage ou les critères de convergence. LLE évolue également bien avec la dimensionnalité intrinsèque de . La fonction objective pour LLE est La matrice de poids éléments pour les objets et sont mis à zéro si $\mathbf{Y}$

ζ (Y) = (Y - W Y)^{2} = Y^{⊤} (I - W)^{⊤} (I - W) Y

$\begin{equation} \zeta(\mathbf{Y})=(\mathbf{Y}- \mathbf{WY})^2\\ \quad \quad \quad \quad \quad\quad \quad = \mathbf{Y}^\top (\mathbf{I}-\mathbf{W})^\top (\mathbf{I}-\mathbf{W})\mathbf{Y} \end{equation}$

W

$\mathbf{W}$

w_{i j}

$w_{ij}$

i

$i$

j

$j$

j

$j$ n'est pas le plus proche voisin de , sinon, les poids pour les K-voisins les plus proches de l'objet sont déterminés via un ajustement aux moindres carrés de où la variable dépendante est un vecteur de uns, est une matrice Gram pour tous les voisins les plus proches de l'objet , et est un vecteur de poids qui suit des contraintes de somme à unité. Soit un semi-fini positif symétrique

i

$i$

i

$i$

U = G β

$\begin{equation} \mathbf{U}=\mathbf{G}\boldsymbol{\beta} \end{equation}$

U

$\mathbf{U}$

K \times 1

$K \times 1$

G

$\mathbf{G}$

K \times K

$K \times K$

i

$i$

β

$\boldsymbol{\beta}$

K \times 1

$K \times 1$

D

$\mathbf{D}$

K \times K

$K \times K$ matrice de distance pour toutes les paires des K plus proches voisins de l'objet à dimensions . On peut montrer que est égal à la matrice de distance doublement centrée avec les éléments Les coefficients de régression sont déterminés numériquement en utilisant

p

$p$

x_{i}

$\mathbf{x}_i$

G

$\mathbf{G}$

τ

$\boldsymbol{\tau}$

τ_{l m} = - \frac{1}{2} (d_{l m}^{2} - \frac{1}{K} \sum_{l} d_{l m}^{2} - \frac{1}{K} \sum_{m} d_{l m}^{2} + \sum_{l} \sum_{m} d_{l m}^{2}) .

$\begin{equation} \tau_{lm}=-\frac{1}{2} \left( d_{lm}^2 - \frac{1}{K}\sum_l d_{lm}^2 - \frac{1}{K}\sum_m d_{lm}^2 + \sum_l\sum_m d_{lm}^2 \right). \end{equation}$

K

$K$

\underset{K \times 1}{β} = {\underset{K \times K}{(τ^{⊤} τ)}}^{- 1} \underset{K \times 1}{τ^{⊤} U},

$\begin{equation} \underset{K \times 1}{\boldsymbol{\beta}}=\underset{K \times K}{(\boldsymbol{\tau}^\top \boldsymbol{\tau})}^{-1}\underset{K \times 1}{\boldsymbol{\tau}^\top\mathbf{U}}, \end{equation}$ et sont vérifiés pour confirmer leur somme à l'unité. Les valeurs de sont intégrées dans la ligne de aux différentes positions de colonne correspondant aux K voisins les plus proches de l'objet , ainsi que les éléments de transposition. Ceci est répété pour chaque ème objet du jeu de données. Il convient de noter que si le nombre de voisins les plus proches est trop faible, alors peut être clairsemé, ce qui rend l'analyse propre difficile. Il a été observé que voisins les plus proches entraînaient

β

$\boldsymbol{\beta}$

i

$i$

W

$\mathbf{W}$

i

$i$

i

$i$

K

$K$

W

$\mathbf{W}$

K = 9

$K=9$

W

$\mathbf{W}$ matrices qui ne contenaient pas de pathologies lors de l'analyse propre. La fonction objectif est minimisée en trouvant les plus petites valeurs propres non nulles de La forme réduite de est représentée par où a des dimensions basées sur les deux valeurs propres les plus basses de .

(I - W)^{⊤} (I - W) E = Λ D E .

$\begin{equation} (\mathbf{I}-\mathbf{W})^\top(\mathbf{I}-\mathbf{W})\mathbf{E}=\boldsymbol{\Lambda}\mathbf{D}\mathbf{E}. \end{equation}$

X

$\mathbf{X}$

Y = E

$\mathbf{Y}=\mathbf{E}$

E

$\mathbf{E}$

n \times 2

$n \times 2$

Λ

$\boldsymbol{\Lambda}$

— NXG Logic
source

"K = 9 voisins les plus proches" Cela ne dépend-il pas de la dimensionnalité de ? Par exemple, si a moins de 9 dimensions, alors la matrice de poids n'est pas déterminée de manière unique. Est-ce que cela cause des problèmes avec LLE?

Y

$Y$

Y

$Y$

W

$W$

— Scott

Oui, mais s'il y a, disons, 8 dimensions, pour les données aléatoires, chaque point peut littéralement être écrit parfaitement comme une combinaison linéaire de 9 autres, dans un nombre infini de façons.

— Scott

Il existe toujours des scénarios de simulation lors de la mise en œuvre d'une technique, et c'est pourquoi des contraintes de paramètres sont utilisées.

— NXG Logic du