Consigner les probabilités en référence au classificateur softmax

Dans ce https://cs231n.github.io/neural-networks-case-study/ pourquoi mentionne-t-il "le classificateur Softmax interprète chaque élément de ff comme détenant les probabilités de log (non normalisées) des trois classes."

Je comprends pourquoi il n'est pas normalisé mais pas pourquoi il s'agit d'un journal? Que signifie une probabilité logarithmique?

Pourquoi ne pas simplement dire des probabilités non normalisées?

— Abhishek Bhatia
source

Il existe une différence entre les probabilités et les probabilités logarithmiques. Si la probabilité d'un événement est de 0,366787944117, ce qui se trouve être $1/e$ , alors la probabilité logarithmique est -1.

Par conséquent, si vous disposez d'un tas de probabilités de journal non normalisées et que vous souhaitez récupérer les probabilités d'origine, vous devez d'abord prendre l'exposant de tous vos nombres, ce qui vous donne des probabilités non normalisées. Ensuite, vous les normalisez comme d'habitude. Mathématiquement, c'est

p_{j} = \frac{e^{z_{j}}}{\sum_{i} e^{z_{i}}}

$p_j = \frac{e^{z_j}}{\sum_i e^{z_i}}$

où $p_j$ est la probabilité de $j$ e classe et $z_i$ correspond aux entrées du classificateur softmax.

La question évidente est de savoir pourquoi s'embêter à faire des exposants. Pourquoi ne pas utiliser

p_{j} = \frac{z_{j}}{\sum_{i} z_{i}}

$p_j = \frac{z_j}{\sum_i z_i}$

au lieu?

Une des raisons en est que le softmax joue bien avec la perte d'entropie croisée, qui est $-E_q[\log p]$ , où $q$ est la vraie distribution (les étiquettes). Intuitivement, le journal s'annule avec l'exposant, ce qui est très utile pour nous.

Il s'avère que si vous prenez le gradient de la perte d'entropie croisée par rapport aux entrées du classificateur $\vec z$ , vous obtenez

\vec{p} - 1_{j}

$\vec p - 1_j$

quand l'étiquette de vérité au sol est en classe $j$ et $1_j$ est le vecteur one-hot correspondant. C'est une expression très agréable et conduit à une interprétation et une optimisation faciles.

D'un autre côté, si vous essayez d'utiliser des probabilités non normalisées au lieu de probabilités logarithmiques non normalisées, vous vous retrouvez avec le gradient étant

\frac{1}{\sum_{i} z_{i}} - {\vec{1}}_{j}^{T} \frac{1}{z}

$\frac{1}{\sum_i z_i} - \vec 1_j^T\frac{1}{z}$

Cette expression est beaucoup moins agréable en termes d'interprétabilité et vous pouvez également voir des problèmes numériques potentiels lorsque $z$ est proche de 0.

Une autre raison d'utiliser les probabilités logarithmiques peut être vue à partir de la régression logistique, qui est simplement un cas spécial de classification softmax. La forme de la fonction sigmoïde fonctionne bien car, intuitivement, lorsque vous vous déplacez dans l'espace des fonctionnalités, la probabilité des classes ne varie pas linéairement avec les entrées. Le virage serré de la fonction sigmoïde, qui souligne la frontière nette entre deux classes, est vraiment le résultat du terme exponentiel que nous appliquons aux entrées de softmax.

— shimao
source

Où est le journal dans l'expression des probabilités de journal non normalisées?

— Abhishek Bhatia

Le journal vient du fait que

\log p_{j} \propto z_{j}

$\log p_j \propto z_j$ . Le log des probabilités est la probabilité log. Depuis dans mon post, j'allais dans la direction opposée - log probabilités à probabilités, j'ai utilisé exp au lieu de log.

— shimao