Les sorties Softmax produisent un vecteur non négatif et une somme égale à 1. C'est utile lorsque vous avez des catégories mutuellement exclusives ("ces images ne contiennent que des chats ou des chiens, pas les deux"). Vous pouvez utiliser softmax si vous avez des étiquettes mutuellement exclusives .2,3,4,5,...
En utilisant sorties sigmoïdes produisent un vecteur où chaque élément est une probabilité. Cela est utile lorsque vous avez des catégories qui ne s'excluent pas mutuellement ("ces images peuvent contenir des chats, des chiens ou des chats et des chiens à la fois"). Vous utilisez autant de neurones sigmoïdes que vous avez de catégories et vos étiquettes ne doivent pas s’exclure mutuellement.2,3,4,...
Le truc mignon est que vous pouvez également utiliser une seule unité sigmoïde si vous rencontrez un problème binaire s'excluant mutuellement. puisqu’une seule unité sigmoïde peut être utilisée pour estimer , les axiomes de Kolmogorov impliquent que .p(y=1)1−p(y=1)=p(y=0)
L'utilisation de la fonction d' identité en tant que sortie peut être utile lorsque vos sorties ne sont pas liées. Le bénéfice ou la perte d’un quart de la société pourrait être illimité de part et d’autre.
Les unités ReLU ou des variantes similaires peuvent être utiles lorsque la sortie est liée au-dessus ou au-dessous. Si la sortie est uniquement limitée à une valeur non négative, il serait judicieux d’utiliser une activation ReLU comme fonction de sortie.
De même, si les sorties sont d'une certaine manière contraintes de se trouver dans , tanh pourrait avoir un sens.[−1,1]
La bonne chose à propos des réseaux de neurones est qu'ils sont des outils incroyablement flexibles.