Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et de nouvelles publications comme mesure - cela semble être un sujet brûlant.
L'ELM a été introduit par Huang et. Al. vers 2003. L'idée sous-jacente est assez simple: commencer par un réseau neuronal artificiel à 2 couches et assigner au hasard les coefficients de la première couche. Ceci transforme le problème d'optimisation non linéaire qui est généralement traité par rétropropagation en un problème de régression linéaire simple. Plus détaillé, pour , le modèle est
Maintenant, seuls les sont ajustés (afin de minimiser la perte d'erreur quadratique), tandis que les sont tous choisis au hasard. En compensation de la perte de degrés de liberté, la suggestion habituelle est d'utiliser un nombre assez important de nœuds cachés (c'est-à-dire des paramètres libres ).
D'un autre point de vue (pas celui généralement promu dans la littérature, qui vient du côté du réseau neuronal), toute la procédure est simplement une régression linéaire, mais une où vous choisissez vos fonctions de base au hasard, par exemple
(De nombreux autres choix à côté du sigmoïde sont possibles pour les fonctions aléatoires. Par exemple, le même principe a également été appliqué en utilisant des fonctions de base radiales.)
De ce point de vue, toute la méthode devient presque trop simpliste, et c'est aussi le point où je commence à douter que la méthode est vraiment bonne (... alors que sa commercialisation scientifique l'est certainement). Donc, voici mes questions:
L'idée de tramer l'espace d'entrée à l'aide de fonctions de base aléatoires est, à mon avis, bonne pour les faibles dimensions. Dans les dimensions élevées, je pense qu'il n'est tout simplement pas possible de trouver un bon choix en utilisant une sélection aléatoire avec un nombre raisonnable de fonctions de base. Par conséquent, l'ELM se dégrade-t-il dans les dimensions élevées (en raison de la malédiction de la dimensionnalité)?
Connaissez-vous des résultats expérimentaux soutenant / contredisant cette opinion? Dans l'article lié, il n'y a qu'un seul ensemble de données de régression à 27 dimensions (PYRIM) où la méthode fonctionne de manière similaire aux SVM (alors que je préférerais voir une comparaison avec une annulation de rétropropagation)
Plus généralement, je voudrais ici vos commentaires sur la méthode ELM.