Dans le livre de Bishop "Pattern Classification and Machine Learning", il décrit une technique de régularisation dans le contexte des réseaux de neurones. Cependant, je ne comprends pas un paragraphe décrivant que pendant le processus de formation, le nombre de degrés de liberté augmente avec la complexité du modèle. La citation pertinente est la suivante:
Une alternative à la régularisation comme moyen de contrôler la complexité effective d'un réseau est la procédure d'arrêt précoce. L'apprentissage des modèles de réseaux non linéaires correspond à une réduction itérative de la fonction d'erreur définie par rapport à un ensemble de données d'apprentissage. Pour de nombreux algorithmes d'optimisation utilisés pour l'apprentissage du réseau, tels que les gradients conjugués, l'erreur est une fonction non croissante de l'indice d'itération. Cependant, l'erreur mesurée par rapport aux données indépendantes, généralement appelée ensemble de validation, montre souvent une diminution au début, suivie d'une augmentation lorsque le réseau commence à sur-ajuster. La formation peut donc être arrêtée au point de moindre erreur par rapport à l'ensemble de données de validation, comme indiqué sur la figure 5.12, afin d'obtenir un réseau ayant de bonnes performances de généralisation.Le comportement du réseau dans ce cas est parfois expliqué qualitativement en termes de nombre effectif de degrés de liberté dans le réseau, dans lequel ce nombre commence petit puis augmente au cours du processus de formation, ce qui correspond à une augmentation régulière du complexité du modèle.
Il indique également que le nombre de paramètres augmente au cours de la formation. Je supposais que par "paramètres", il se réfère au nombre de poids contrôlés par les unités cachées du réseau. Peut-être que je me trompe parce que les poids ne peuvent pas augmenter en ampleur par le processus de régularisation, mais ils ne changent pas en nombre. Cela pourrait-il faire référence au processus de recherche d'un bon nombre d'unités cachées?
Qu'est-ce qu'un degré de liberté dans un réseau neuronal? Quels paramètres augmentent pendant l'entraînement?