en prenant un cours en ligne sur l'apprentissage automatique par Andrew Ng sur coursera, je suis tombé sur un sujet appelé surapprentissage . Je sais que cela peut se produire lorsque la descente de gradient est utilisée dans une régression linéaire ou logistique, mais peut-elle se produire lorsque des algorithmes d'optimisation avancée tels que "gradient conjugué", "BFGS" et "L-BFGS" sont utilisés?