La formule d' entropie croisée prend deux distributions, , la distribution vraie, et , la distribution estimée, définie sur la variable discrète et est donnée parp ( x )q( x )X
H( p , q) = - ∑∀ xp ( x ) log( q( x ) )
Pour un réseau de neurones, le calcul est indépendant des éléments suivants:
Quel type de couche a été utilisé.
Quel type d'activation a été utilisé - bien que de nombreuses activations ne soient pas compatibles avec le calcul car leurs sorties ne sont pas interprétables comme des probabilités (c'est-à-dire que leurs sorties sont négatives, supérieures à 1 ou ne totalisent pas 1). Softmax est souvent utilisé pour la classification multiclasse car il garantit une fonction de distribution de probabilité bien comportée.
Pour un réseau de neurones, vous verrez généralement l'équation écrite sous une forme où est le vecteur de vérité fondamentale et (ou une autre valeur prise directement à partir de la sortie de la dernière couche) est le devis. Pour un seul exemple, cela ressemblerait à ceci:yyy^
L = - y ⋅ log( y^)
où est le produit vectoriel vectoriel.⋅
Votre exemple de vérité fondamentale donne toutes les probabilités à la première valeur, et les autres valeurs sont nulles, donc nous pouvons les ignorer, et utiliser simplement le terme correspondant de vos estimationsyyy^
L = - ( 1 × l o g( 0,1 ) + 0 × log( 0,5 ) + . . . )
L = - l o g( 0,1 ) ≈ 2,303
Un point important des commentaires
Cela signifie que la perte serait la même, peu importe si les prévisions sont ou ?[ 0,1 , 0,5 , 0,1 , 0,1 , 0,2 ][ 0,1 , 0,6 , 0,1 , 0,1 , 0,1 ]
Oui, c'est une caractéristique clé de la perte de journal multiclasse, elle récompense / pénalise les probabilités des classes correctes uniquement. La valeur est indépendante de la façon dont la probabilité restante est répartie entre des classes incorrectes.
N
J= - 1N( ∑i = 1Nyje⋅ journal( y^je) )
De nombreuses implémentations nécessiteront que vos valeurs de vérité au sol soient codées à chaud (avec une seule vraie classe), car cela permet une optimisation supplémentaire. Cependant, en principe, la perte d'entropie croisée peut être calculée - et optimisée - lorsque ce n'est pas le cas.