Biais de régression Softmax et probabilités a priori pour des classes inégales

J'utilise la régression Softmax pour un problème de classification multi-classes. Je n'ai pas de probabilités antérieures égales pour chacune des classes.

Je sais par régression logistique (régression softmax avec 2 classes) que les probabilités antérieures des classes sont implicitement ajoutées au biais ( ). $\log(p_0/p_1)$

Habituellement, ce que je fais est de supprimer manuellement ce terme du biais.

Ma question est, quel est le terme correspondant dans le biais de régression softmax?

Merci.

logistic prior unbalanced-classes

— Ran
source

Pour autant que je sache, la justification de l'initialisation du biais softmax est un peu ondulée à la main. La régression softmax de rappel est une estimation de vraisemblance maximale (log) pour , le modèle étant le suivant: Avec l'initialisation du biais, notre intention est de trouver une bonne valeur avec laquelle commence haut. Sous l'hypothèse que nous initialisons avec de petites valeurs proches de 0 et que $W,\textbf{b}$

y \sim Cat (σ (W x + b)); σ_{i} (z) = \frac{\exp z_{i}}{\sum_{j} \exp z_{j}} .

$\DeclareMathOperator{cat}{Cat} \newcommand{\norm}[1]{\left\| #1 \right\|} \newcommand{vsigma}{{\boldsymbol\sigma}} \newcommand{vx}{{\textbf{x}}} \newcommand{vb}{{\textbf{b}}} \newcommand{vz}{{\textbf{z}}} y\sim\cat(\vsigma(W\vx+\vb)); \;\;\;\sigma_i(\vz)=\frac{\exp z_i}{\sum_j\exp z_j}.$

b

$\vb$

p (x, y | W, b) \propto p (y | W, b, x)

$p(\vx, y|W,\vb)\propto p( y|W,\vb,\vx)$

W

$W$

y

$y$ est une étiquette dans , donc: Addition des log-probabilités pour tous les exemples indépendants supposés , a une bonne initialisation pour minimiserait la probabilité totale approximative du journal de données: Le gradient du wrt ci-dessus est , avec le vecteur de comptage de chaque classe. La fonction ci-dessus est également concave,

[K]

$[K]$

W x \approx 0

$W\vx\approx 0$

\log p (y | W, b, x) = \sum_{k = 1}^{K} 1_{y = k} \log σ_{k} (W x + b) \approx \log σ_{y} (b)

$\log p( y|W,\vb,\vx)=\sum_{k=1}^K1_{y=k}\log \sigma_k(W\vx + \vb)\approx\log\sigma_y(\vb)$

{(x_{i}, y_{i})}_{i = 1}^{n}

$\{(\vx_i,y_i)\}_{i=1}^n$

b

$\vb$

\sum_{i = 1}^{n} \log σ_{y_{i}} (b) = \sum_{i = 1}^{n} b_{y_{i}} - n \log \sum_{k = 1}^{K} \exp b_{k}

$\newcommand{vc}{{\textbf{c}}} \sum_{i=1}^n\log\sigma_{y_i}(\vb)=\sum_{i=1}^nb_{y_i}-n\log\sum_{k=1}^K\exp b_k$

b

$\vb$

c - n σ (b)

$\vc-n\vsigma(\vb)$

c \in N^{K}

$\vc\in\mathbb{N}^K$ voir la question ici sur smooth max pour une preuve.

Les deux faits ci-dessus impliquent qu'un maximum est disponible chaque fois que . Ceci, à son tour, suggère une initialisation viable pour le ème terme du biais est en effet , la proportion d' exemples étiquetés dans l'ensemble d'apprentissage (alias les statistiques marginales). Vous pouvez voir que vous pouvez ajouter n'importe quelle constante à et obtenir également un autre biais de maximisation de vraisemblance; Cependant, une grande échelle obtiendrait la manière d'apprendre . La relation avec le biais logistique n'est pas une coïncidence --- ce tutoriel discute de la similitude. $\vsigma(\vb)=\vc/n$ $i$ $b_i$ $\vb$ $\log p_i$ $i$ $\vb$ $W$

— VF1
source