Liste des fonctions de coût utilisées dans les réseaux de neurones, parallèlement aux applications

133

Quelles sont les fonctions de coût courantes utilisées pour évaluer les performances des réseaux de neurones?

Détails

(n'hésitez pas à sauter le reste de cette question, mon intention est simplement de fournir des éclaircissements sur la notation que les réponses peuvent utiliser pour les aider à être plus compréhensibles par le lecteur en général)

Je pense qu’il serait utile d’avoir une liste de fonctions de coûts communes, ainsi que quelques manières de les utiliser dans la pratique. Donc, si d'autres personnes s'intéressent à cela, je pense qu'un wiki de communauté est probablement la meilleure approche, ou nous pouvons le supprimer s'il est hors sujet.

Notation

Donc, pour commencer, j'aimerais définir une notation que nous utilisons tous pour décrire celles-ci, afin que les réponses correspondent bien les unes aux autres.

Cette notation est extraite du livre de Neilsen .

Un réseau de neurones Feedforward est constitué de plusieurs couches de neurones connectées entre elles. Ensuite, il prend une entrée, cette entrée "ruisselle" à travers le réseau, puis le réseau de neurones renvoie un vecteur de sortie.

Plus formellement, appelez $a^i_j$ l'activation (ou sortie) du $j^{th}$ neurone dans la couche $i^{th}$ , où $a^1_j$ est l' élément $j^{th}$ du vecteur d'entrée.

Ensuite, nous pouvons relier l'entrée de la couche suivante à la précédente via la relation suivante:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

où

est la fonction d'activation, $\sigma$

est le poids du neurone dans lacouche au neurone dans la couche, $w^i_{jk}$ $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

est le biais duneurone dans lacouche , et $b^i_j$ $j^{th}$ $i^{th}$

représente la valeur d'activation du neurone dans la couche. $a^i_j$ $j^{th}$ $i^th$

Parfois , on note pour représenter , en d' autres termes, la valeur d'activation d'un neurone avant l' application de la fonction d'activation. $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

entrez la description de l'image ici

Pour une notation plus concise, nous pouvons écrire

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

$I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

introduction

Une fonction de coût est une mesure de la "qualité" d'un réseau de neurones par rapport à son échantillon d'apprentissage donné et à la sortie attendue. Cela peut également dépendre de variables telles que les poids et les biais.

Une fonction de coût est une valeur unique, pas un vecteur, car elle évalue la qualité du réseau de neurones dans son ensemble.

Plus précisément, une fonction de coût est de la forme

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

$W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

$\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$

Qui peut également être écrit en tant que vecteur via

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$

Nous allons fournir le gradient des fonctions de coût en termes de seconde équation, mais si l'on veut prouver ces résultats eux-mêmes, il est recommandé d'utiliser la première équation car il est plus facile de travailler avec.

Exigences de la fonction de coût

Pour être utilisée dans la rétropropagation, une fonction de coût doit posséder deux propriétés:

$C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

$C_x$ $x$

Ainsi, cela nous permet de calculer la pente (en ce qui concerne les poids et les biais) pour un seul exemple d’entraînement et d’exécuter Gradient Descent.

$C$ $a^L$

$a^i_j$ $z^i_j$

$0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
source

Ceci est un site de questions-réponses, et le format de cet article ne correspond pas vraiment à cela. Vous devriez probablement mettre la majorité du contenu dans une réponse et ne laisser que la question (par exemple, qu'est-ce qu'une liste des fonctions de coût utilisées dans les NN?).

— Roger Fan

D'accord, est-ce mieux? Je pense que les définitions sont importantes sinon les réponses deviennent vagues pour ceux qui ne connaissent pas la terminologie utilisée par l'auteur.

— Phylliida

Mais que se passe-t-il si une réponse différente utilise une notation ou une terminologie différente?

— Roger Fan

L'idée est que tout le monde utilise la même terminologie ici, et que si c'est différent, nous le convertissons en ceci, donc les réponses "s'accordent" les unes aux autres. Mais je suppose que je pourrais retirer ce morceau si vous ne le trouvez pas utile.

— Phylliida

Je pense simplement que les détails de la question ne sont pas vraiment nécessaires ou pertinents. Cela semble un peu excessif et contraignant, mais ce n'est que moi.

— Roger Fan

Réponses:

Voici ceux que j'ai compris jusqu'ici. La plupart d’entre eux fonctionnent mieux quand on leur donne des valeurs entre 0 et 1.

Coût quadratique

Également appelé erreur quadratique moyenne , maximum de vraisemblance et erreur somme quadratique , il est défini comme suit:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

$r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Coût d'entropie croisée

Également connu sous le nom de log-vraisemblance négative de Bernoulli et d' entropie croisée binaire

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

$r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Coût exponentiel

$\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

$\text{exp}(x)$ $e^x$

$r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

$C_{EXP}$ $C_{EXP}$

Distance de Hellinger

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

$0$ $1$

$r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Divergence de Kullback – Leibler

Aussi connu sous le nom d' information Divergence , gain d' information , entropie relative , KLIC ou KL Divergence (voir ici ).

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

$D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

$P=E^i$ $Q=a^L$

$r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Divergence généralisée de Kullback – Leibler

À partir d' ici .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

$r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Itakura – Saito distance

Aussi d' ici .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

$r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

$\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
source

Merci pour le partage, vous pouvez également prendre en compte les éléments suivants: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael,

vous avez une petite erreur dans le dénominateur du dérivé de l'entropie croisée, il ne devrait a*(1-a)pas en être a*(1+a)

— autrement

Il serait également intéressant d’afficher la fonction de perte de flipper afin de minimiser les quantiles d’erreur plutôt que l’erreur moyenne. Très utilisé dans les systèmes d'aide à la décision.

— Ricardo Cruz

Où puis-je voir des graphiques pour ceux-ci?

— Coiso

\neq

$\neq$

\neq

$\neq$

Vous n'avez pas la réputation de commenter, mais il y a des erreurs de signe dans les 3 derniers gradients.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$ Cette même erreur de signe apparaît dans la divergence généralisée de KL.

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— franc
source