Je m'excuse à l'avance pour le fait que j'arrive toujours à ce sujet. J'essaie de comprendre les avantages et les inconvénients de l'utilisation de tanh (carte -1 à 1) par rapport à sigmoïde (carte 0 à 1) pour ma fonction d'activation des neurones. D'après ma lecture, cela ressemblait à une chose mineure avec des différences marginales. Dans la pratique pour mes problèmes, je trouve que le sigmoïde est plus facile à entraîner et étrangement, le sigmoïde semble mieux trouver une solution générale. J'entends par là que lorsque la version sigmoïde est terminée, elle fonctionne bien sur l'ensemble de données de référence (non formé), où la version tanh semble être en mesure d'obtenir les bonnes réponses sur les données de formation tout en faisant mal sur la référence. C'est pour la même architecture de réseau.
Une intuition que j'ai est qu'avec le sigmoïde, il est plus facile pour un neurone de s'éteindre presque complètement, ne fournissant ainsi aucune entrée aux couches suivantes. Le tanh a plus de mal ici car il doit annuler parfaitement ses entrées, sinon il donne toujours une valeur à la couche suivante. Peut-être que cette intuition est fausse.
Long courrier. En fin de compte, quel est le métier, et cela devrait-il faire une grande différence?