Dropout ne supprime pas réellement les neurones, c'est juste que ces neurones particuliers ne jouent aucun rôle (ne sont pas activés) pour le lot de données donné.
Exemple - Supposons qu'il y ait une route à 8 voies - Quand les camions arrivent, ils passent par les voies 1,2,4,6,7, quand les voitures arrivent, ils passent par les voies 2,3,4,7,8 et quand les vélos arrivent , ils traversent les voies 1,2,5,8. Donc, quel que soit le véhicule, toutes les voies sont là, mais seules certaines d'entre elles sont utilisées.
De même, tous les neurones sont utilisés dans le modèle entier, mais seul un sous-ensemble de neurones est activé pour un lot particulier de données. Et le modèle n'est pas coupé plus tard, la complexité du modèle reste inchangée.
Pourquoi utiliser le décrochage?
Comme indiqué dans le livre d'apprentissage en profondeur par Ian Goodfellow,
le décrochage est plus efficace que d'autres régularisateurs standard peu coûteux en calcul, tels que la décroissance de poids, les contraintes de norme de filtre et la régularisation d'activité clairsemée.
Il dit aussi-
Un des avantages du décrochage est qu'il est très bon marché en termes de calcul.
Un autre avantage significatif du décrochage est qu'il ne limite pas de manière significative le type de modèle ou de procédure de formation qui peut être utilisé. Il fonctionne bien avec presque tous les modèles qui utilisent une représentation distribuée et peut être entraîné avec une descente de gradient stochastique. Cela comprend les réseaux de neurones à action directe, les modèles probabilistes tels que les machines Boltzmann restreintes (Srivastava et al., 2014) et les réseaux de neurones récurrents (Bayer et Osendorfer, 2014; Pascanu et al., 2014a).
Ce livre dit-
L'idée centrale est que l'introduction de bruit dans les valeurs de sortie d'une couche peut briser des modèles de circonstances non significatives, que le réseau commencera à mémoriser s'il n'y a pas de bruit.