Je sais que c'est un message tardif, mais je pense qu'il serait toujours utile de fournir une justification à ceux qui arrivent ici.
Tu n'as pas tout à fait tort. C'est arbitraire dans une certaine mesure, mais peut-être arbitraire est le mauvais mot. Cela ressemble plus à un choix de conception. Laisse-moi expliquer.
Il s'avère que le Softmax est en fait la généralisation de la fonction Sigmoïde, qui est une unité de sortie Bernoulli (sortie 0 ou 1):
[ 1 + exp ( - z)]- 1
Mais d'où vient la fonction sigmoïde, vous pourriez vous demander.
Eh bien, il s'avère que de nombreuses distributions de probabilités différentes, y compris le Bernoulli, la distribution de Poisson, la gaussienne, etc. suivent quelque chose appelé un modèle linéaire généralisé (GLM). Autrement dit, ils peuvent être exprimés en termes de:
P( y; η) = b ( y) exp [ηTT( y) - a ( η) ]
Je ne couvrirai pas tous ces paramètres, mais vous pouvez certainement faire des recherches à ce sujet.
Observez l'exemple suivant de la répartition d'une distribution de Bernoulli dans la famille GLM:
P(y=1)=ϕP(y=0)=1−ϕP(y)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(ϕ)+log(1−ϕ)−ylog(1−ϕ))=exp(ylog(ϕ1−ϕ)+log(1−ϕ))
Vous pouvez voir que dans ce cas,
b(y)=1T(y)=yη=log(ϕ1−ϕ)a(η)=−log(1−ϕ)
Remarquez ce qui se passe lorsque nous résolvons ϕ en terme de η:
η=log(ϕ1−ϕ)eη=ϕ1−ϕe−η=1−ϕϕ=1ϕ−1e−η+1=1ϕϕ=[exp(−η)+1]−1
Donc pour ϕ=P(y=1), nous prenons le sigmoïde de η. Le choix de conception entre en jeu lorsque nous supposons queη=wTx, où w sont vos poids et x sont vos données, que nous supposons toutes deux être ∈Rn. En faisant cette hypothèse, nous pouvons adapterw approximer ϕ.
Si vous deviez suivre ce même processus pour une distribution Multinoulli, vous finiriez par dériver la fonction softmax.