Les arrêts et abandons précoces sont-ils suffisants pour régulariser la grande majorité des réseaux de neurones profonds dans la pratique?

Il y a tellement de techniques de régularisation qu'il n'est pas pratique d'essayer toutes les combinaisons:

l1 / l2
norme max
abandonner
arrêt précoce
...

Il semble que la plupart des gens soient satisfaits d'une combinaison d'abandon + d'arrêt précoce: y a-t-il des cas où l'utilisation d'autres techniques a du sens?

Par exemple, si vous voulez un modèle clairsemé, vous pouvez ajouter un peu de régularisation l1. En dehors de cela, existe-t-il des arguments solides en faveur de l'aspersion dans d'autres techniques de régularisation?

Je connais le théorème du déjeuner gratuit, en théorie, je devrais essayer toutes les combinaisons de techniques de régularisation, mais cela ne vaut pas la peine d'essayer s'il ne donne presque jamais une amélioration significative des performances.

neural-networks regularization dropout

— MiniQuark
source

Rappelons que l'objectif principal de la régularisation est de réduire le sur-ajustement.

Quelles autres techniques sont actuellement utilisées pour réduire le sur-ajustement:

1) Partage du poids - comme dans les CNN, en appliquant les mêmes filtres sur l'image.

2) Augmentation des données - Augmenter les données existantes et générer des données synthétiques avec des modèles génératifs

3) Grande quantité de données d'entraînement - grâce à ImageNet etc.

4) Pré-formation - Par exemple, dites Utiliser les poids appris d'ImageNet avant de former le classificateur sur l'ensemble de données Caltech.

5) L'utilisation de RelU dans les réseaux neuronaux en soi encourage la rareté car ils ne permettent aucune activation. En fait, pour les régions plus complexes dans l'espace des fonctionnalités, utilisez plus de RelU, désactivez-les pour les régions simples. Donc, variez fondamentalement la complexité du modèle en fonction de la complexité du problème.

L'utilisation d'un tas de ces techniques en plus de l'abandon et de l'arrêt précoce semble suffisante pour les problèmes résolus aujourd'hui. Cependant, pour de nouveaux problèmes avec des données moindres, d'autres techniques de régularisation peuvent être utiles.

— Amitoz Dandiana
source

+1 Excellente réponse, merci. Il semble qu'il y ait une ligne floue séparant les techniques d'initialisation du poids (ex. Pré-entraînement) et de régularisation. En outre, certaines techniques peuvent être utiles pour plusieurs choses, y compris la régularisation: par exemple, la norme de lot est destinée à résoudre le problème des gradients de fuite, mais elle a également certaines capacités de régularisation. J'attendrai quelques autres réponses avant d'en accepter une.

— MiniQuark