J'ai lu ailleurs que le choix d'une fonction d'activation de couche cachée dans un NN devrait être basé sur ses besoins , c'est-à-dire que si vous avez besoin de valeurs dans la plage -1 à 1, utilisez tanh et utilisez sigmoid pour la plage 0 à 1.
Ma question est de savoir comment sait-on quels sont ses besoins ? Est-il basé sur la plage de la couche d'entrée, par exemple utiliser la fonction qui peut englober toute la plage de valeurs de la couche d'entrée, ou reflète en quelque sorte la distribution de la couche d'entrée (fonction gaussienne)? Ou le besoin / domaine est-il spécifique et son expérience / jugement est-il nécessaire pour faire ce choix? Ou est-ce simplement "utiliser ce qui donne la meilleure erreur de formation minimale validée de façon croisée?"
1 + (1 / exp(-sum))
. Rendre le besoin très difficile à comprendre sans essayer les deux sur chaque ensemble de données. Le besoin tel que vous le décrivez ici est lié à la relation réelle apprise, c'est-à-dire qu'un ensemble de données binaires apprendra plus rapidement ou pas du tout compte tenu des différentes activations.