J'ai construit un réseau neuronal artificiel en python en utilisant la fonction d'optimisation scipy.optimize.minimize (gradient conjugué).
J'ai implémenté la vérification du gradient, j'ai tout vérifié, etc., et je suis presque certain que cela fonctionne correctement.
Je l'ai exécuté plusieurs fois et il atteint `` L'optimisation s'est terminée avec succès '', mais lorsque j'augmente le nombre de couches masquées, le coût de l'hypothèse augmente (tout le reste est le même) une fois qu'elle s'est terminée avec succès.
Intuitivement, il semble que le coût devrait diminuer lorsque le nombre de couches cachées augmente, car il est capable de générer une hypothèse plus complexe qui peut mieux s'adapter aux données, mais cela ne semble pas être le cas.
Je serais intéressé de comprendre ce qui se passe ici, ou si j'ai mal mis en place le réseau neuronal?