En fait, ils sont équivalents, en ce sens que l’un peut être transformé en un autre.
Supposons que vos données soient représentées par un vecteur , de dimension arbitraire, et que vous ayez construit un classificateur binaire à l'aide d'une transformation affine suivie d'un softmax:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Transformons-le en un classifieur binaire équivalent qui utilise un sigmoïde au lieu du softmax. Tout d'abord, nous devons décider quelle est la probabilité que nous voulions que le sigmoïde produise une sortie (ce qui peut être pour la classe ou ). Ce choix est absolument arbitraire et j'ai donc choisi la classe . Ensuite, mon classificateur sera de la forme:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Les classificateurs sont équivalents si les probabilités sont les mêmes, il faut donc imposer:
σ(z′)=softmax(z0)
Remplacement de , et par leurs expressions en termes de et et en effectuant quelques simples manipulation algébrique, vous pouvez vérifier que l'égalité ci-dessus est vraie si et seulement si et sont donnés par:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.