La façon simple de l'expliquer est que la régularisation aide à ne pas s'adapter au bruit, mais ne permet pas de déterminer la forme du signal. Si vous envisagez l'apprentissage en profondeur comme un approximateur de fonctions glorieux, vous réalisez qu'il faut beaucoup de données pour définir la forme du signal complexe.
S'il n'y avait pas de bruit, la complexité croissante de NN produirait une meilleure approximation. La taille de la NN ne serait pas pénalisée, une plus grande aurait été meilleure dans tous les cas. Considérons une approximation de Taylor, plus de termes est toujours préférable pour une fonction non polynomiale (en ignorant les problèmes de précision numérique).
Cela tombe en présence d'un bruit, car vous commencez à vous adapter au bruit. Alors, voici la régularisation pour aider: cela peut réduire l’adaptation au bruit, nous permettant ainsi de construire un plus grand réseau de bruit pour résoudre des problèmes non linéaires.
La discussion suivante n’est pas essentielle à ma réponse, mais j’ai ajouté en partie pour répondre à certains commentaires et motiver le corps de la réponse ci-dessus. Fondamentalement, le reste de ma réponse est comme les feux français qui viennent avec un repas de hamburger, vous pouvez le sauter.
(Ir) Cas pertinent: Régression polynomiale
Regardons un exemple jouet d'une régression polynomiale. C'est également un très bon approximateur pour de nombreuses fonctions. Nous examinerons la fonction dans la région . Comme vous pouvez le voir dans la série de Taylor ci-dessous, l'extension du 7ème ordre est déjà un très bon ajustement. Nous pouvons donc nous attendre à ce qu'un polynôme de l'ordre du 7+ soit également un très bon ajustement:x ∈ ( - 3 , 3 )péché( x )x ∈ ( - 3 , 3 )
Ensuite, nous allons ajuster les polynômes d'ordre croissant à un petit ensemble de données très bruyant comprenant 7 observations:
Nous pouvons observer ce que beaucoup de gens au courant savent nous dire au sujet des polynômes: ils sont instables et commencent à osciller sauvagement avec l’augmentation de l’ordre des polynômes.
Cependant, le problème n'est pas les polynômes eux-mêmes. Le problème est le bruit. Lorsque nous ajustons des polynômes à des données bruitées, une partie de cet ajustement est liée au bruit, pas au signal. Voici les mêmes polynômes exacts qui correspondent au même ensemble de données mais avec le bruit complètement supprimé. Les ajustements sont super!
Notez un ajustement visuel parfait pour l'ordre 6. Cela ne devrait pas être surprenant puisque 7 observations sont tout ce dont nous avons besoin pour identifier uniquement le polynôme d'ordre 6, et nous avons vu dans le diagramme d'approximation de Taylor ci-dessus que l'ordre 6 est déjà une très bonne approximation de dans notre plage de données.péché( x )
Notez également que les polynômes d'ordre supérieur ne correspondent pas à l'ordre 6, car il n'y a pas assez d'observations pour les définir. Alors, regardons ce qui se passe avec 100 observations. Sur un graphique ci-dessous, vous voyez comment un plus grand ensemble de données nous a permis d'adapter des polynômes d'ordre supérieur, réalisant ainsi un meilleur ajustement!
Bien, mais le problème est que nous traitons généralement des données bruitées. Regardez ce qui se passe si vous vous adaptez aux 100 observations de données très bruyantes, voir le tableau ci-dessous. Nous revenons à la case départ: les polynômes d'ordre supérieur produisent des ajustements horribles. Ainsi, l’augmentation du jeu de données n’a pas beaucoup aidé à augmenter la complexité du modèle pour mieux expliquer les données. Ceci est dû au fait que le modèle complexe s’adapte mieux non seulement à la forme du signal, mais également à la forme du bruit.
Enfin, essayons une régularisation boiteuse sur ce problème. Le graphique ci-dessous montre la régularisation (avec différentes pénalités) appliquée à la régression polynomiale d'ordre 9. Comparez ceci à l'ordre (puissance) 9 ajustement polynomial ci-dessus: à un niveau approprié de régularisation, il est possible d'adapter les polynômes d'ordre supérieur aux données bruitées.
Juste au cas où ce ne serait pas clair: je ne suggère pas d'utiliser la régression polynomiale de cette façon. Les polynômes étant adaptés aux ajustements locaux, un polynôme par morceaux peut constituer un bon choix. Il est souvent déconseillé d’en équiper l’ensemble du domaine. En effet, ils sont sensibles au bruit, comme il ressort des graphiques ci-dessus. Que le bruit soit numérique ou d'une autre source n'est pas si important dans ce contexte. le bruit est du bruit et les polynômes vont y réagir passionnément.