Un sur-ajustement peut-il se produire dans les algorithmes d'optimisation avancée?


8

en prenant un cours en ligne sur l'apprentissage automatique par Andrew Ng sur coursera, je suis tombé sur un sujet appelé surapprentissage . Je sais que cela peut se produire lorsque la descente de gradient est utilisée dans une régression linéaire ou logistique, mais peut-elle se produire lorsque des algorithmes d'optimisation avancée tels que "gradient conjugué", "BFGS" et "L-BFGS" sont utilisés?

Réponses:


11

Aucune technique n'élimine entièrement le risque de sur-ajustement. Les méthodes que vous avez répertoriées ne sont que des façons différentes d'ajuster un modèle linéaire. Un modèle linéaire aura un minimum global, et ce minimum ne devrait pas changer quelle que soit la saveur de la descente de gradient que vous utilisez (à moins que vous n'utilisiez la régularisation), donc toutes les méthodes que vous avez énumérées seraient trop adaptées (ou underfit) également.

En passant de modèles linéaires à des modèles plus complexes, comme l'apprentissage en profondeur, vous êtes encore plus à risque de voir le sur-ajustement. J'ai eu beaucoup de réseaux de neurones alambiqués qui se surajustent mal, même si la convolution est censée réduire considérablement les risques de surapprentissage en partageant des poids. En résumé, il n'y a pas de solution miracle pour le sur-ajustement, quelle que soit la famille de modèles ou la technique d'optimisation.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.