La fonction que vous proposez a une singularité chaque fois que la somme des éléments est nulle.
Supposons que votre vecteur soit . Ce vecteur a une somme de 0, donc la division n'est pas définie. La fonction n'est pas différenciable ici.[ -1 , 13, 23]
De plus, si un ou plusieurs des éléments du vecteur sont négatifs mais que la somme est non nulle, votre résultat n'est pas une probabilité.
Supposons que votre vecteur soit . Cela a une somme de 1, donc l'application de votre fonction donne , qui n'est pas un vecteur de probabilité car il a des éléments négatifs et des éléments dépassant 1.[ - 1 , 0 , 2 ][ - 1 , 0 , 2 ]
En adoptant une vue plus large, nous pouvons motiver la forme spécifique de la fonction softmax dans la perspective d'étendre la régression logistique binaire au cas de trois résultats catégoriels ou plus.
Faire des choses comme prendre des valeurs absolues ou des carrés, comme suggéré dans les commentaires, signifie que et ont la même probabilité prédite; cela signifie que le modèle n'est pas identifié . En revanche,- xXexp ( x ) xexp( x ) est monotone et positif pour tout réel , donc le résultat softmax est (1) un vecteur de probabilité et (2) le modèle logistique multinomial est identifié.X