Un sur-ajustement peut-il se produire dans les algorithmes d'optimisation avancée?

8

en prenant un cours en ligne sur l'apprentissage automatique par Andrew Ng sur coursera, je suis tombé sur un sujet appelé surapprentissage . Je sais que cela peut se produire lorsque la descente de gradient est utilisée dans une régression linéaire ou logistique, mais peut-elle se produire lorsque des algorithmes d'optimisation avancée tels que "gradient conjugué", "BFGS" et "L-BFGS" sont utilisés?

— Saksham
source

11

Aucune technique n'élimine entièrement le risque de sur-ajustement. Les méthodes que vous avez répertoriées ne sont que des façons différentes d'ajuster un modèle linéaire. Un modèle linéaire aura un minimum global, et ce minimum ne devrait pas changer quelle que soit la saveur de la descente de gradient que vous utilisez (à moins que vous n'utilisiez la régularisation), donc toutes les méthodes que vous avez énumérées seraient trop adaptées (ou underfit) également.

En passant de modèles linéaires à des modèles plus complexes, comme l'apprentissage en profondeur, vous êtes encore plus à risque de voir le sur-ajustement. J'ai eu beaucoup de réseaux de neurones alambiqués qui se surajustent mal, même si la convolution est censée réduire considérablement les risques de surapprentissage en partageant des poids. En résumé, il n'y a pas de solution miracle pour le sur-ajustement, quelle que soit la famille de modèles ou la technique d'optimisation.

— Ryan Zotti
source

4

Le sur-ajustement est généralement le résultat des données et de la structure de votre modèle. Les algorithmes «avancés» que vous mentionnez ont des utilisations spécifiques qui peuvent ou non surpasser d'autres méthodes en fonction de vos objectifs et de vos données. Voici une source de lecture supplémentaire: http://papers.nips.cc/paper/1895-overfitting-in-neural-nets-backpropagation-conjugate-gradient-and-early-stopping.pdf

— Hobbes
source