2
Qu'est-ce que l'activation GELU?
Je parcourais le papier BERT qui utilise GELU (Gaussian Error Linear Unit) qui énonce l'équation comme qui à son tour est approximativement àG EL U( x ) = x P( X≤ x ) = x Φ ( x ) .gELU(X)=XP(X≤X)=XΦ(X). GELU(x) = xP(X ≤ x) = xΦ(x).0.5x(1+tanh[2/π−−−√(x+0.044715x3)])0,5X(1+tunenh[2/π(X+0,044715X3)])0.5x(1 + tanh[\sqrt{ 2/π}(x …