Machine d'apprentissage extrême: de quoi s'agit-il?

Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et de nouvelles publications comme mesure - cela semble être un sujet brûlant.

L'ELM a été introduit par Huang et. Al. vers 2003. L'idée sous-jacente est assez simple: commencer par un réseau neuronal artificiel à 2 couches et assigner au hasard les coefficients de la première couche. Ceci transforme le problème d'optimisation non linéaire qui est généralement traité par rétropropagation en un problème de régression linéaire simple. Plus détaillé, pour , le modèle est $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Maintenant, seuls les sont ajustés (afin de minimiser la perte d'erreur quadratique), tandis que les sont tous choisis au hasard. En compensation de la perte de degrés de liberté, la suggestion habituelle est d'utiliser un nombre assez important de nœuds cachés (c'est-à-dire des paramètres libres ). $w_i$ $v_{ik}$ $w_i$

D'un autre point de vue (pas celui généralement promu dans la littérature, qui vient du côté du réseau neuronal), toute la procédure est simplement une régression linéaire, mais une où vous choisissez vos fonctions de base au hasard, par exemple $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(De nombreux autres choix à côté du sigmoïde sont possibles pour les fonctions aléatoires. Par exemple, le même principe a également été appliqué en utilisant des fonctions de base radiales.)

De ce point de vue, toute la méthode devient presque trop simpliste, et c'est aussi le point où je commence à douter que la méthode est vraiment bonne (... alors que sa commercialisation scientifique l'est certainement). Donc, voici mes questions:

L'idée de tramer l'espace d'entrée à l'aide de fonctions de base aléatoires est, à mon avis, bonne pour les faibles dimensions. Dans les dimensions élevées, je pense qu'il n'est tout simplement pas possible de trouver un bon choix en utilisant une sélection aléatoire avec un nombre raisonnable de fonctions de base. Par conséquent, l'ELM se dégrade-t-il dans les dimensions élevées (en raison de la malédiction de la dimensionnalité)?
Connaissez-vous des résultats expérimentaux soutenant / contredisant cette opinion? Dans l'article lié, il n'y a qu'un seul ensemble de données de régression à 27 dimensions (PYRIM) où la méthode fonctionne de manière similaire aux SVM (alors que je préférerais voir une comparaison avec une annulation de rétropropagation)
Plus généralement, je voudrais ici vos commentaires sur la méthode ELM.

regression

— davidhigh
source

Voir ici pour l'histoire complète: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

Réponses:

Votre intuition sur l'utilisation de l'ELM pour les problèmes de grande dimension est correcte, j'ai quelques résultats à ce sujet, que je prépare pour publication. Pour de nombreux problèmes pratiques, les données ne sont pas très non linéaires et l'ELM fonctionne assez bien, mais il y aura toujours des ensembles de données où la malédiction de la dimensionnalité signifie que la chance de trouver une bonne fonction de base avec une courbure là où vous en avez besoin devient plutôt petit, même avec de nombreux vecteurs de base.

Personnellement, j'utiliserais quelque chose comme une machine à vecteur de support des moindres carrés (ou un réseau de fonctions de base radiale) et j'essaierais de choisir les vecteurs de base parmi ceux de l'ensemble de formation de manière gourmande (voir par exemple mon article , mais il y en avait d'autres / mieux) approches publiées à peu près à la même époque, par exemple dans le très bon livre de Scholkopf et Smola sur "Learning with Kernels"). Je pense qu'il vaut mieux calculer une solution approximative au problème exact, plutôt qu'une solution exacte à un problème approximatif, et les machines du noyau ont un meilleur fondement théorique (pour un noyau fixe; o).

— Dikran Marsupial
source

+1. Je n'ai jamais entendu parler d'ELM auparavant, mais d'après la description de l'OP, cela ressemble un peu à la machine à état liquide (LSM): connectivité réseau aléatoire et optimisation uniquement des poids de lecture. Cependant, dans LSM, le "réservoir" aléatoire est récurrent, tandis que dans ELM il est à action directe. Est-ce bien là la similitude et la différence?

— Amoeba dit Reinstate Monica

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: Je ne connaissais pas la machine à état liquide, mais d'après ce que vous dites, cela semble en effet très similaire ... et bien sûr, techniquement plus général. Pourtant, la récurrence ajoute juste une forme plus complexe d'aléatoire au problème, qui à mon avis ne résout pas les problèmes de malédiction de dimensionnalité (... mais ok, qui fait ça?). Ces pondérations sont-elles choisies avec soin ou également complètement aléatoires?

— davidhigh

@davidhigh pour un noyau RBF, les "théorèmes des représentants" montrent qu'il n'y a pas de meilleure solution que de centrer une fonction de base sur chaque échantillon d'apprentissage (en faisant des hypothèses raisonnables sur la fonction de coût régularisée). C'est l'une des fonctionnalités intéressantes des méthodes du noyau (et des splines), il n'est donc pas nécessaire de les répartir de manière aléatoire. Soit dit en passant, la construction d'un modèle linéaire sur la sortie de fonctions de base sélectionnées aléatoirement a une très longue histoire, mon préféré est la recherche de couche unique perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 mais je pourrait être biaisé!

— Dikran Marsupial

@DikranMarsupial avez-vous publié ou avez-vous une pré-publication disponible?

— Tom Hale

L'ELM "apprend" des données en résolvant analytiquement les poids de sortie. Ainsi, plus les données introduites dans le réseau sont grandes, plus les résultats seront bons. Cependant, cela nécessite également plus de nombres de nœuds cachés. Si l'ELM est entraîné avec peu ou pas d'erreur, lorsqu'il reçoit un nouvel ensemble d'entrée, il ne peut pas produire la sortie correcte.

Le principal avantage de l'ELM par rapport au réseau neuronal traditionnel, une telle propagation arrière, est son temps d'entraînement rapide. La plupart du temps de calcul est consacré à la résolution du poids de la couche de sortie, comme mentionné dans le document Huang.

— user62106
source