La fonction softmax, couramment utilisée dans les réseaux de neurones pour convertir des nombres réels en probabilités, est la même fonction que la distribution de Boltzmann, la distribution de probabilité sur les énergies pour un ensemble de particules en équilibre thermique à une température donnée T en thermodynamique.
Je peux voir quelques raisons heuristiques claires pour lesquelles cela est pratique:
- Peu importe si les valeurs d'entrée sont négatives, softmax génère des valeurs positives totalisant un.
- Il est toujours différentiable, ce qui est pratique pour la rétropropagation.
- Il a un paramètre `` température '' contrôlant la clémence du réseau envers les petites valeurs (lorsque T est très grand, tous les résultats sont également probables, lorsqu'ils sont très petits, seule la valeur avec la plus grande entrée est sélectionnée).
La fonction Boltzmann est-elle uniquement utilisée comme softmax pour des raisons pratiques, ou existe-t-il un lien plus profond avec la thermodynamique / physique statistique?