Je prépare actuellement un examen sur les réseaux de neurones. Dans plusieurs protocoles d'examens précédents, j'ai lu que les fonctions d'activation des neurones (dans les perceptrons multicouches) doivent être monotones.
Je comprends que les fonctions d'activation doivent être différenciables, avoir une dérivée qui n'est pas nulle sur la plupart des points et être non linéaire. Je ne comprends pas pourquoi être monotone est important / utile.
Je connais les fonctions d'activation suivantes et qu'elles sont monotones:
- ReLU
- Sigmoïde
- Tanh
- Softmax: Je ne sais pas si la définition de la monotonie est applicable pour les fonctions avec
- Softplus
- (Identité)
Cependant, je ne vois toujours aucune raison pour laquelle par exemple .
Pourquoi les fonctions d'activation doivent-elles être monotones?
(Question secondaire connexe: y a-t-il une raison pour laquelle la fonction logarithme / exponentielle n'est pas utilisée comme fonction d'activation?)