Être plus rapide ou plus bas est un terme relatif et doit être compris dans le contexte de ce à quoi il se compare. Donc, pour comprendre cela, nous devons d'abord considérer comment la descente de gradient fonctionne avec d'autres types de la fonction d'activation.
Exemple de configuration
n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
f
Tanh et Sigmoid - Dégradé disparaissant
ff′(x)∈(−1,1)x
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(−1,1)f′ai−2(−1,1)
dfdW1ndfdW1
RELU et Dead Neuron
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
x>0x<0
Leaky RELU et ELU
x>0x<1
Je cite le papier original pour la différence entre les deux.
Bien que les LReLU et les PReLU aient également des valeurs négatives, ils n'assurent pas un état de désactivation robuste au bruit. Les ELU saturent à une valeur négative avec des entrées plus petites et diminuent ainsi la variation et l'information propagées vers l'avant.
L'explication intuitive va comme suit. Dans ELU, chaque fois que x devenait suffisamment petit, le gradient devenait vraiment petit et saturé (de la même manière que cela se produit pour Tanh et Sigmoid). Le petit gradient signifie que l'algorithme d'apprentissage peut se concentrer sur le réglage d'autres poids sans se soucier de l'interactivité avec les neurones saturés.
Considérons un polynôme de degré 2 qui peut être représenté comme une surface lisse dans un espace 3D. Pour trouver le minimum local, un algorithme de descente de gradient devra tenir compte de la pente à la fois dans la direction x et y. Si le gradient est à la fois négatif dans la direction x et la direction y, il n'est pas clair quel chemin est le meilleur. Il est donc judicieux de choisir un chemin quelque part entre les deux. Mais que se passe-t-il si nous savons déjà que tout est plat (gradients zéro) dans la direction x, alors il devient évident de choisir la direction y. Ou en d'autres termes, votre espace de recherche devient beaucoup plus petit.
note spéciale
Dans l'apprentissage en profondeur, il y a beaucoup de revendications sans suffisamment de preuves empiriques ou de compréhension approfondie pour le soutenir. Dans le cas d'ELU, bien qu'il puisse être vrai que cela entraîne une convergence plus rapide pour certains ensembles de données, il pourrait également être vrai qu'il fait que l'algorithme d'apprentissage se bloque au maximum local pour un autre ensemble de données. Nous n'en savons tout simplement pas encore assez.