Je regarde comment implémenter le décrochage sur un réseau de neurones profond et j'ai trouvé quelque chose de contre-intuitif. Dans la phase avant, les activations du masque de décrochage avec un tenseur aléatoire de 1 et 0 pour forcer le filet à apprendre la moyenne des poids. Cela aide le net à mieux se généraliser. Mais pendant la phase de mise à jour de la descente de gradient, les activations ne sont pas masquées. Cela me semble contre-intuitif. Si je masque les activations de connexions avec abandon, pourquoi ne devrais-je pas masquer la phase de descente du gradient?