La régularisation est utilisée dans presque tous les algorithmes d'apprentissage automatique où nous essayons d'apprendre à partir d'échantillons finis de données de formation.
Je vais tenter de répondre indirectement à vos questions spécifiques en expliquant la genèse du concept de régularisation. La théorie complète est beaucoup plus détaillée et cette explication ne doit pas être interprétée comme complète, mais elle vise simplement à vous orienter dans la bonne direction pour une exploration plus approfondie. Puisque votre objectif principal est d'obtenir une compréhension intuitive de la régularisation, j'ai résumé et simplifié fortement l'explication suivante du chapitre 7 de "Neural Networks and Learning Machines", 3e édition de Simon Haykin (et j'ai omis plusieurs détails en le faisant).
XjeyjeF
Pour aller plus loin, comprenons la terminologie d'Hadamard d'un problème "bien posé" - un problème est bien posé s'il remplit les trois conditions suivantes:
- Xjeyje
- X1X2F( x1) = f( x2)X1= x2
- F
Pour l'apprentissage supervisé, ces conditions peuvent être violées car:
- Une sortie distincte peut ne pas exister pour une entrée donnée.
- Il peut ne pas y avoir suffisamment d'informations dans les échantillons d'apprentissage pour construire un mappage d'entrée-sortie unique (car l'exécution de l'algorithme d'apprentissage sur différents échantillons d'apprentissage entraîne différentes fonctions de mappage).
- Le bruit dans les données ajoute une incertitude au processus de reconstruction qui peut affecter sa stabilité.
Pour résoudre ces problèmes "mal posés", Tikhonov a proposé une méthode de régularisation pour stabiliser la solution en incluant une fonction non négative qui intègre des informations préalables sur la solution.
La forme la plus courante d'information préalable implique l'hypothèse que la fonction de mappage entrée-sortie est fluide - c'est-à-dire que des entrées similaires produisent des sorties similaires.
λFλ∞∞
λ
Voici quelques exemples de telles fonctions de coût régularisé:
Régression linéaire:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Régression logistique:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
θxhθ(x)y
L2
L'effet net de l'application de la régularisation est de réduire la complexité du modèle, ce qui réduit le sur-ajustement. D'autres approches de régularisation (non répertoriées dans les exemples ci-dessus) incluent des modifications aux modèles structurels tels que les arbres de régression / classification, les arbres boostés, etc. en supprimant les nœuds pour rendre les arbres plus simples. Plus récemment, cela a été appliqué dans ce que l'on appelle le «deep learning» en supprimant les connexions entre les neurones d'un réseau de neurones.
Une réponse spécifique au Q3 est que certaines méthodes d'assemblage telles que Random Forest (ou des systèmes de vote similaires) parviennent à une régularisation en raison de leur méthode inhérente, à savoir voter et élire la réponse à partir d'une collection d'arbres non régularisés. Même si les arbres individuels sont surajustés, le processus de «calcul de la moyenne» de leur résultat empêche l'ensemble de sur-ajuster à l'ensemble d'entraînement.
ÉDITER:
Le concept de régularité appartient à la théorie des ensembles axiomatiques, vous pouvez vous référer à cet article pour les pointeurs - en.wikipedia.org/wiki/Axiom_of_regularity et explorer ce sujet plus en détail si vous êtes intéressé par les détails.
Sur la régularisation pour les réseaux neuronaux: lors de l'ajustement des poids lors de l'exécution de l'algorithme de rétropropagation, le terme de régularisation est ajouté à la fonction de coût de la même manière que les exemples de régression linéaire et logistique. L'ajout du terme de régularisation empêche donc la rétropropagation d'atteindre les minima globaux.
L'article décrivant la normalisation par lots pour les réseaux de neurones est - Normalisation par lots: accélération de la formation en réseau profond en réduisant le décalage covariable interne, Ioffe, Szegedy, 2015. On sait que la rétropropagation pour former un réseau de neurones fonctionne mieux lorsque les variables d'entrée sont normalisées. Dans cet article, les auteurs ont appliqué la normalisation à chaque mini-lot utilisé dans la descente de gradient stochastique pour éviter le problème des «gradients disparaissants» lors de la formation de nombreuses couches d'un réseau neuronal. L'algorithme décrit dans leur article traite la moyenne et la variance calculées dans chaque lot pour chaque couche d'activations comme un autre ensemble de paramètres optimisés dans le SGD mini-lot (en plus des poids NN). Les activations sont ensuite normalisées à l'aide de l'ensemble d'entraînement complet. Vous pouvez vous référer à leur article pour plus de détails sur cet algorithme. En utilisant cette méthode, ils ont pu éviter d'utiliser les abandons pour la régularisation, et donc leur affirmation qu'il s'agit d'un autre type de régularisation.