Valeur attendue d'une variable aléatoire gaussienne transformée avec une fonction logistique


10

La fonction logistique et l'écart type sont généralement notés . J'utiliserai et pour l'écart-type.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ(x)=1/(1+exp(x))s

J'ai un neurone logistique avec une entrée aléatoire dont la moyenne et écart - type je sais. J'espère que la différence par rapport à la moyenne peut être bien approchée par du bruit gaussien. Donc, avec un léger abus de notation, supposons qu'il produit . Quelle est la valeur attendue de ? L'écart type peut être grand ou petit par rapport à ou . Une bonne approximation sous forme fermée pour la valeur attendue serait presque aussi bonne qu'une solution sous forme fermée.s σ ( μ + N ( 0 , s 2 ) ) = σ ( N ( μ , s 2 ) ) σ ( N ( μ , s 2 ) ) s μ 1μsσ(μ+N(0,s2))=σ(N(μ,s2))σ(N(μ,s2))sμ1

Je ne pense pas qu'une solution de formulaire fermé existe. Cela peut être considéré comme une convolution, et la fonction caractéristique de la densité logistique est connue ( ), mais je ne sais pas combien cela aide. La calculatrice symbolique inverse n'a pas pu reconnaître la densité à de la convolution de la densité de la distribution logistique et une distribution normale standard, ce qui suggère mais ne prouve pas qu'il n'y a pas d'intégrale élémentaire simple. Preuve plus circonstancielle: Dans certains articles sur l'ajout de bruit d'entrée gaussien aux réseaux de neurones avec des neurones logistiques, les articles ne donnaient pas non plus d'expressions de forme fermée.πt csch πt0

Cette question s'est posée en essayant de comprendre l'erreur dans l'approximation du champ moyen dans les machines Boltzman.

Réponses:


5

Voici ce que j'ai fini par utiliser:

Écrivez où . Nous pouvons utiliser une extension de la série Taylor.X N ( 0 , s 2 )σ(N(μ,s2))=σ(μ+X)XN(0,s2)

σ(μ+X)=σ(μ)+Xσ(μ)+X22σ(μ)+...+Xnn!σ(n)(μ)+...

E[σ(μ+X)]=E[σ(μ)]+E[Xσ(μ)]+E[X22σ(μ)]+...=σ(μ)+0+s22σ(μ)+0+3s424σ(4)(μ)+...+s2k2kk!σ(2k)(μ)...

Il y a des problèmes de convergence. La fonction logistique a un pôle où , donc à , impair. La divergence n'est pas la même chose que le préfixe étant inutile, mais cette approximation en série peut ne pas être fiable lorsque est significatif.exp(x)=1x=kπikP(|X|>μ2+π2)

Puisque , nous pouvons écrire des dérivés de sous forme de polynômes dans . Par exemple, et . Les coefficients sont liés à OEIS A028246 .σ(x)=σ(x)(1σ(x))σ(x)σ(x)σ=σ3σ2+2σ3σ=σ7σ2+12σ36σ4


4

Ce que vous avez ici est une variable aléatoire qui suit une distribution logit-normale (ou logistique-normale) (voir wikipedia ), c'est-à-dire . Les moments de la distribution logit-normale n'ont pas de solutions analytiques.logit[x]N(μ,s2)

Mais bien sûr, on peut les obtenir via l'intégration numérique. Si vous utilisez R, il existe le package logitnorm qui contient tout ce dont vous avez besoin. Un exemple:

install.packages("logitnorm")
library(logitnorm)
momentsLogitnorm(mu=1, sigma=2)

Cela donne:

> momentsLogitnorm(mu=1, sigma=2)
      mean        var 
0.64772644 0.08767866

Ainsi, il existe même une fonction de commodité qui vous donnera directement la moyenne et la variance.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.