Pour autant que je sache, la justification de l'initialisation du biais softmax est un peu ondulée à la main. La régression softmax de rappel est une estimation de vraisemblance maximale (log) pour , le modèle étant le suivant:
Avec l'initialisation du biais, notre intention est de trouver une bonne valeur avec laquelle commence haut. Sous l'hypothèse que nous initialisons avec de petites valeurs proches de 0 et queW,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wy est une étiquette dans , donc:
Addition des log-probabilités pour tous les exemples indépendants supposés , a une bonne initialisation pour minimiserait la probabilité totale approximative du journal de données:
Le gradient du wrt ci-dessus est , avec le vecteur de comptage de chaque classe. La fonction ci-dessus est également concave,
[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NKvoir la question ici sur smooth max pour une preuve.
Les deux faits ci-dessus impliquent qu'un maximum est disponible chaque fois que . Ceci, à son tour, suggère une initialisation viable pour le ème terme du biais est en effet , la proportion d' exemples étiquetés dans l'ensemble d'apprentissage (alias les statistiques marginales). Vous pouvez voir que vous pouvez ajouter n'importe quelle constante à et obtenir également un autre biais de maximisation de vraisemblance; Cependant, une grande échelle obtiendrait la manière d'apprendre . La relation avec le biais logistique n'est pas une coïncidence --- ce tutoriel discute de la similitude.σ(b)=c/nibiblogpiibW