Donc, actuellement, les fonctions d'activation les plus couramment utilisées sont celles de Re-Lu. J'ai donc répondu à cette question Quel est le but d'une fonction d'activation dans les réseaux de neurones? et en écrivant la réponse, cela m'a frappé, comment peut exactement la fonction non linéaire approximative de Re-Lu?
Par pure définition mathématique, bien sûr, c'est une fonction non linéaire en raison du virage serré, mais si nous nous limitons à la partie positive ou négative de l'axe des x uniquement, alors son linéaire dans ces régions. Disons que nous prenons également l'ensemble de l'axe des x, puis aussi son peu linéaire (pas au sens mathématique strict) dans le sens où il ne peut pas approximer de manière satisfaisante les fonctions courbes comme l'onde sinusoïdale ( 0 --> 90
) avec une couche cachée à un seul nœud comme cela est possible par un sigmoïde fonction d'activation.
Alors, quelle est l'intuition derrière le fait que les Re-Lu sont utilisés dans les NN, donnant des performances satisfaisantes (je ne demande pas le but des Re-lu) même s'ils sont plutôt linéaires? Ou les fonctions non linéaires comme sigmoïde et tanh sont-elles parfois lancées au milieu du réseau?
EDIT: Selon le commentaire de @ Eka, Re-Lu tire sa capacité de la discontinuité agissant dans les couches profondes de Neural Net. Cela signifie-t-il que les Re-Lu sont bons tant que nous les utilisons dans les NN profonds et non dans un NN peu profond?
max(0,x)
agit dans les couches profondes du réseau neuronal. Il y a une recherche openai dans laquelle ils ont calculé des fonctions non linéaires en utilisant des réseaux linéaires profonds voici le lien blog.openai.com/nonlinear-computation-in-linear-networks