Le théorème d'approximation universel pour les réseaux de neurones vaut-il pour une fonction d'activation?

8

Le théorème d'approximation universel pour les réseaux de neurones s'applique-t-il à une fonction d'activation (sigmoïde, ReLU, Softmax, etc ...) ou est-il limité aux fonctions sigmoïdes?

Mise à jour: Comme le souligne shimao dans les commentaires, cela ne vaut absolument pour aucune fonction. Alors, pour quelle classe de fonctions d'activation tient-il?

neural-networks approximation

— Skander H.
source

1

Je crois que cela vaut pour tous ceux que vous avez énumérés, mais cela ne vaut pour aucune fonction d'activation arbitraire (considérez f (x) = 0)

— shimao

Lisez l'article de Cybenko (1989). La fonction doit être compacte, c'est-à-dire qu'elle doit être définie sur des sous-ensembles compacts de R ^ n

— Snehanshu Saha

S'il existe un nombre infini de discontinuités, il peut également être géré en ajoutant davantage de couches masquées. Cela fonctionne également pour SBAF.

— Snehanshu Saha

Cela n'a pas de sens, car chaque fonction définie sur est définie sur des sous-ensembles compacts de celle-ci!

R^{n}

$\mathbb{R}^n$

— whuber

8

L' article de wikipedia contient une déclaration officielle.

Soit une fonction non constante, bornée et continue. $\varphi$

— Matthew Drury
source

8

Cela couvre sigmoid et softmax mais pas ReLU. Selon cet article, la propriété détient également certaines fonctions illimitées comme ReLU ainsi que d'autres.

— Jodag

4

Les réseaux multicouches à action directe sont une référence publiée qui résout le problème. Les fonctions d'activation polynomiales n'ont pas la propriété d'approximation universla.

La préimpression NN avec des fonctions d'activation illimitées couvre de nombreuses fonctions d'activation. Il ne regarde que la seule couche cachée NN. C'est lourd sur l'analyse de Fourier.

Je souligne que la deuxième référence est une pré-impression car je ne peux pas garantir sa précision. Leshno et alt 1993 est une publication révisée.

— VictorZurkowski
source

3

L'article de Kurt Hornik de 1991 intitulé "Capacités d'approximation des réseaux multicouches à action directe" prouve que "les réseaux multicouches standard à action directe avec aussi peu qu'une seule couche cachée et une fonction d'activation limitée et arbitraire sont des approximateurs universels en ce qui concerne les critères de performance , pour des mesures arbitraires d'environnement d'entrée fini , à condition que suffisamment d'unités cachées soient disponibles. " En d'autres termes, l'hypothèse selon laquelle la fonction d'activation est limitée et non constante est suffisante pour approximer presque toutes les fonctions étant donné que nous pouvons utiliser autant d'unités cachées que nous le voulons dans le réseau neuronal. Le document devrait être disponible ici: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdf $L^P(\mu)$ $\mu$

— mathémusicien
source