Pourquoi les réseaux de neurones semblent-ils mieux fonctionner avec des restrictions placées sur leur topologie?

29

Les réseaux backprop entièrement connectés (au moins couche à couche avec plus de 2 couches masquées) sont des apprenants universels. Malheureusement, ils sont souvent lents à apprendre et ont tendance à trop s'adapter ou à avoir des généralisations maladroites.

En m'amusant avec ces réseaux, j'ai observé que l'élagage de certains bords (de sorte que leur poids est nul et impossible à modifier) a tendance à rendre les réseaux plus rapides à apprendre et à mieux se généraliser. Y a-t-il une raison à cela? Est-ce uniquement à cause d'une diminution de la dimensionnalité de l'espace de recherche de poids, ou y a-t-il une raison plus subtile?

De plus, la meilleure généralisation est-elle un artefact des problèmes «naturels» que je regarde?

machine-learning network-topology neural-networks

— Artem Kaznatcheev
source

9

Moins de nœuds / arêtes (ou arêtes avec des poids fixes) signifie qu'il y a moins de paramètres dont les valeurs doivent être trouvées, ce qui réduit généralement le temps d'apprentissage. De plus, lorsqu'il y a moins de paramètres, l' espace qui peut être exprimé par le réseau neuronal a moins de dimensions, de sorte que le réseau neuronal ne peut exprimer que des modèles plus généraux. Il est donc moins capable de sur-ajuster les données, et donc les modèles sembleront plus généraux.

— Dave Clarke
source

5

En élaguant les bords, vous avez réduit l'espace de recherche pour l'algorithme de formation, qui aura un gain immédiat en termes de performances temporelles. Vous avez également introduit des contraintes sur les fonctions que le réseau peut modéliser. Les contraintes peuvent forcer votre modèle à trouver une solution plus générale, car la plus précise est inaccessible. Une technique courante pour former des réseaux de neurones utilise une technique de descente en gradient. Une autre conséquence de l'élagage peut être que vous avez éliminé certains minima locaux dans le paysage des paramètres, ce qui permet à nouveau à l'algorithme de formation de trouver une meilleure solution.

Je ne serais pas surpris si votre meilleure généralisation est liée aux problèmes que vous regardez. J'ai apprécié le succès avec les réseaux de neurones où le modèle sous-jacent a une structure continue, tandis que dans les cas où il y a des discontinuités, les choses ne fonctionnaient pas si bien. Gardez également à l'esprit que les performances du réseau de neurones sont souvent intimement liées à la façon dont vous structurez vos entrées et vos sorties.

— John Percival Hackworth
source