Quelle est la température dans le LSTM (et les réseaux de neurones en général)?


Réponses:


28

La température est un hyperparamètre de LSTM (et des réseaux de neurones en général) utilisé pour contrôler le caractère aléatoire des prédictions en mettant à l'échelle les logits avant d'appliquer softmax. Par exemple, dans la mise en œuvre Magenta de TensorFlow des LSTM, la température représente la quantité de diviser les logits avant de calculer le softmax.

Lorsque la température est 1, nous calculons le softmax directement sur les logits (la sortie non mise à l'échelle des couches précédentes), et en utilisant une température de 0,6, le modèle calcule le softmax sur , ce qui donne une valeur plus grande. L'exécution de softmax sur des valeurs plus grandes rend le LSTM plus sûr (moins d'entrée est nécessaire pour activer la couche de sortie) mais aussi plus conservateur dans ses échantillons (il est moins susceptible d'échantillonner à partir de candidats improbables). L'utilisation d'une température plus élevée produit une distribution de probabilité plus douce sur les classes et rend le RNN plus "facilement excité" par les échantillons, ce qui entraîne plus de diversité et aussi plus d'erreurs .logits0.6

Les réseaux de neurones produisent des probabilités de classe avec le vecteur logit où en exécutant la fonction softmax pour produire le vecteur de probabilité en comparant avec les autres logits.zz=(z1,,zn)q=(q1,,qn)zi

(1)qi=exp(zi/T)jexp(zj/T)

où est le paramètre de température, normalement réglé sur 1.T

La fonction softmax normalise les candidats à chaque itération du réseau en fonction de leurs valeurs exponentielles en s'assurant que les sorties du réseau sont toutes comprises entre zéro et un à chaque pas de temps.

La température augmente donc la sensibilité aux candidats à faible probabilité. Dans les LSTM, le candidat ou l'échantillon peut être une lettre, un mot ou une note de musique, par exemple:

Pour les températures élevées ( ), tous les [échantillons] ont presque la même probabilité et plus la température est basse, plus les récompenses attendues affectent la probabilité. Pour une température basse ( ), la probabilité de [l'échantillon] avec la récompense attendue la plus élevée tend à 1.ττ0+

- d'un article de Wikipedia sur la fonction softmax

Référence

Hinton, Geoffrey, Oriol Vinyals et Jeff Dean. "Distiller les connaissances dans un réseau de neurones." arXiv preprint arXiv: 1503.02531 (2015). arXiv


3
Elle fait allusion à la distribution de Boltzmann (ou distribution de Gibbs) - une distribution de probabilité utilisée en mécanique statistique.
mc2
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.