Réponses:
La sortie des couches convolutives représente des caractéristiques de haut niveau dans les données. Bien que cette sortie puisse être aplatie et connectée à la couche de sortie, l'ajout d'une couche entièrement connectée est un moyen (généralement) bon marché d'apprendre des combinaisons non linéaires de ces fonctionnalités.
Essentiellement, les couches convolutives fournissent un espace caractéristique significatif, de faible dimension et quelque peu invariant, et la couche entièrement connectée apprend une fonction (éventuellement non linéaire) dans cet espace.
REMARQUE: il est trivial de convertir des couches FC en couches Conv. La conversion de ces couches FC supérieures en couches Conv peut être utile comme le décrit cette page.
J'ai trouvé cette réponse d' Anil-Sharma sur Quora utile.
Nous pouvons diviser l'ensemble du réseau (pour la classification) en deux parties:
Extraction d' entités: Dans les algorithmes de classification conventionnels, comme les SVM, nous avions l'habitude d'extraire des entités des données pour faire fonctionner la classification. Les couches convolutives servent le même but d'extraction d'entités. Les CNN capturent une meilleure représentation des données et nous n'avons donc pas besoin de faire de l'ingénierie des fonctionnalités.
Classification : Après l'extraction des fonctionnalités, nous devons classer les données en différentes classes, cela peut être fait en utilisant un réseau neuronal entièrement connecté (FC). Au lieu de couches entièrement connectées, nous pouvons également utiliser un classificateur classique comme SVM. Mais nous finissons généralement par ajouter des couches FC pour rendre le modèle de bout en bout entraînable.