Il est souvent mentionné que les unités linéaires rectifiées (ReLU) ont remplacé les unités softplus car elles sont linéaires et plus rapides à calculer.
Le softplus a-t-il toujours l'avantage d'induire la rareté ou est-ce limité au ReLU?
La raison pour laquelle je pose la question est que je m'interroge sur les conséquences négatives de la pente nulle du ReLU. Cette propriété ne «piège»-t-elle pas les unités à zéro où il pourrait être avantageux de leur donner la possibilité de se réactiver?