Quels sont les avantages de ReLU par rapport à Leaky ReLU et Parametric ReLU (le cas échéant)?


10

Je pense que l'avantage d'utiliser Leaky ReLU au lieu de ReLU est que de cette façon, nous ne pouvons pas avoir de gradient de fuite. La ReLU paramétrique a le même avantage, à la seule différence que la pente de la sortie pour les entrées négatives est un paramètre apprenable tandis que dans la Leaky ReLU, c'est un hyperparamètre.

Cependant, je ne suis pas en mesure de dire s'il y a des cas où il est plus pratique d'utiliser ReLU au lieu de Leaky ReLU ou Parametric ReLU.

Réponses:


7

La combinaison de ReLU, la variante hyper-paramétrée 1 qui fuit et la variante avec paramétrisation dynamique pendant l'apprentissage confond deux choses distinctes:

  • La comparaison entre ReLU et la variante qui fuit est étroitement liée à la nécessité d'éviter, dans le cas particulier de ML concerné, d'éviter la saturation - La saturation est la perte de signal vers un gradient nul 2 ou la dominance du bruit chaotique provenant du numérique arrondi 3 .
  • La comparaison entre l'activation dynamique d'entraînement (appelée paramétrique dans la littérature) et l'activation statique d'entraînement doit être basée sur le fait que les caractéristiques d'activation non linéaires ou non lisses ont une valeur liée au taux de convergence 4 .

La raison pour laquelle ReLU n'est jamais paramétrique est que le faire serait redondant. Dans le domaine négatif, c'est le zéro constant. Dans le domaine non négatif, sa dérivée est constante. Étant donné que le vecteur d'entrée d'activation est déjà atténué avec un produit à matrice vectorielle (où la matrice, le cube ou l'hyper-cube contient les paramètres d'atténuation), il n'est pas utile d'ajouter un paramètre pour faire varier la dérivée constante pour le domaine non négatif .

Lorsqu'il y a courbure dans l'activation, il n'est plus vrai que tous les coefficients d'activation soient redondants comme paramètres. Leurs valeurs peuvent modifier considérablement le processus de formation et donc la vitesse et la fiabilité de la convergence.

Pour les réseaux substantiellement profonds, la redondance réapparaît, et il y a des preuves de cela, à la fois en théorie et en pratique dans la littérature.

  • En termes algébriques, la disparité entre ReLU et les activations paramétriquement dynamiques qui en dérivent se rapproche de zéro lorsque la profondeur (en nombre de couches) s'approche de l'infini.
  • En termes descriptifs, ReLU peut approximer avec précision les fonctions avec une courbure 5 si on lui donne un nombre suffisant de couches pour le faire.

C'est pourquoi la variété ELU, avantageuse pour éviter les problèmes de saturation mentionnés ci-dessus pour les réseaux moins profonds, n'est pas utilisée pour les réseaux plus profonds.

Il faut donc décider deux choses.

  • L'utilité de l'activation paramétrique est souvent basée sur l'expérimentation de plusieurs échantillons d'une population statistique. Mais il n'est pas nécessaire de l'expérimenter du tout si la profondeur de couche est élevée.
  • La valeur de la variante qui fuit a beaucoup à voir avec les plages numériques rencontrées lors de la rétropropagation. Si le gradient devient extrêmement faible pendant la propagation arrière à tout moment pendant l'entraînement, une partie constante de la courbe d'activation peut être problématique. Dans une telle situation, l'une des fonctions fluides ou RelU qui fuit avec ses deux pentes non nulles peut fournir une solution adéquate.

En résumé, le choix n'est jamais un choix de commodité.


Notes de bas de page

[1] Les hyper-paramètres sont des paramètres qui affectent la signalisation à travers la couche qui ne font pas partie de l'atténuation des entrées pour cette couche. Les poids d'atténuation sont des paramètres. Tout autre paramétrage est dans l'ensemble des hyper-paramètres. Cela peut inclure le taux d'apprentissage, l'amortissement des hautes fréquences dans la propagation arrière et une grande variété d'autres commandes d'apprentissage qui sont définies pour la couche entière, sinon l'ensemble du réseau.

[2] Si le gradient est nul, il ne peut y avoir aucun ajustement intelligent des paramètres car la direction de l'ajustement est inconnue, et sa magnitude doit être nulle. L'apprentissage s'arrête.

[3] Si le bruit chaotique, qui peut survenir lorsque le CPU arrondit des valeurs extrêmement petites à leur représentation numérique la plus proche, domine le signal de correction destiné à se propager vers les couches, alors la correction devient un non-sens et l'apprentissage s'arrête.

[4] Le taux de convergence est une mesure de la vitesse (soit par rapport aux microsecondes, soit par rapport à l'indice d'itération de l'algorithme) dans laquelle le résultat de l'apprentissage (comportement du système) approche ce qui est considéré comme suffisamment bon. C'est généralement une certaine proximité spécifiée avec certains critères d'acceptation formels pour la convergence (apprentissage).

[5] Les fonctions avec courbure sont celles qui ne sont pas visualisées comme droites ou plates. Une parabole a une courbure. Une ligne droite ne fonctionne pas. La surface d'un œuf a une courbure. Un plan plat parfait ne fonctionne pas. Mathématiquement, si l'un des éléments de la toile de jute de la fonction est différent de zéro, la fonction a une courbure.


Qu'entendez-vous par Le choix n'est jamais un choix de commodité ?
gvgramazio

@gvgramazio, Vous aviez écrit "plus pratique pour utiliser ReLU" dans votre question. J'indiquais que la commodité n'est pas la base sur laquelle le choix est fait. Peut-être que cela semble trop dur? Je n'avais pas l'intention de l'être. Les phrases au-dessus de cette phrase dans ma réponse étaient destinées à fournir les critères les plus utiles sur lesquels vous pourriez baser votre décision lors du choix des fonctions d'activation.
FauChristian

Ne vous inquiétez pas d'être trop dur, ce n'est pas du tout un problème pour moi. Je pense que c'est plus un problème de langue (je ne suis pas natif anglais).
gvgramazio

Le fait est que, d'après ce que j'ai compris, vous expliquez bien dans quel cas je devrais préférer une variante par rapport aux autres. Ce que je ne comprends toujours pas, c'est quand je devrais préférer le classique. Par exemple, la variante qui fuit peut fournir une solution adéquate au gradient de fuite, mais si elle n'a aucun inconvénient, je pourrais toujours choisir la variante qui fuit par rapport au ReLU.
gvgramazio

@FauChristian pouvez-vous s'il vous plaît ajouter quelques termes et intuitions plus familiers, je ne suis pas si familier avec le langage mathématique :)
DuttaA
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.