J'espère que les extraits suivants donneront un aperçu de ce que sera ma question. Ils proviennent de http://neuralnetworksanddeeplearning.com/chap3.html
L'apprentissage ralentit ensuite progressivement. Enfin, vers l'époque 280, la précision de la classification cesse de s'améliorer. Les époques ultérieures ne voient que de petites fluctuations stochastiques proches de la valeur de la précision à l'époque 280. Comparez cela avec le graphique précédent, où le coût associé aux données d'entraînement continue de baisser en douceur. Si nous regardons simplement ce coût, il semble que notre modèle s'améliore encore. Mais les résultats de la précision des tests montrent que l'amélioration est une illusion. Tout comme le modèle que Fermi n'aimait pas, ce que notre réseau apprend après l'époque 280 ne se généralise plus aux données de test. Et donc ce n'est pas un apprentissage utile. Nous disons que le réseau est sur-adapté ou surentraîné au-delà de l'époque 280.
Nous formons un réseau de neurones et le coût (sur les données d'entraînement) baisse jusqu'à l'époque 400 mais la précision de la classification devient statique (sauf quelques fluctuations stochastiques) après l'époque 280, nous concluons donc que le modèle est trop adapté aux données de formation après l'époque 280.
Nous pouvons voir que le coût des données de test s'améliore jusqu'à environ 15 ans, mais après cela, il commence à empirer, même si le coût des données d'entraînement continue de s'améliorer. Ceci est un autre signe que notre modèle est trop adapté. Cela pose un casse-tête, cependant, qui est de savoir si nous devrions considérer l'époque 15 ou l'époque 280 comme le moment où le surapprentissage en vient à dominer l'apprentissage? D'un point de vue pratique, ce qui nous importe vraiment, c'est d'améliorer la précision de la classification des données de test, tandis que le coût des données de test n'est rien d'autre qu'un indicateur indirect de la précision de la classification. Il est donc plus logique de considérer l'époque 280 comme le point au-delà duquel le surapprentissage domine l'apprentissage dans notre réseau neuronal.
Par opposition à la précision de la classification des données de test par rapport au coût de formation précédemment, nous plaçons maintenant le coût des données de test contre le coût de la formation.
Ensuite, le livre explique pourquoi 280 est la bonne époque où le surajustement a commencé. C'est ce qui me pose problème. Je ne peux pas envelopper ma tête autour de ça.
Nous demandons au modèle de minimiser le coût et donc le coût est la métrique qu'il utilise comme mesure de sa propre force pour classer correctement. Si nous considérons 280 comme la bonne époque où le sur-ajustement a commencé, n'avons-nous pas en quelque sorte créé un modèle biaisé qui, bien qu'il soit un meilleur classificateur sur les données de test particulières, mais prend néanmoins des décisions avec une faible confiance et est donc plus enclin à dévier des résultats montrés sur les données de test?