D'après ma compréhension, les CNN se composent de deux parties. La première partie (couches conv / pool) qui fait l'extraction d'entités et la deuxième partie (couches fc) qui fait la classification des entités.
Étant donné que les réseaux neuronaux entièrement connectés ne sont pas les meilleurs classificateurs (c'est-à-dire qu'ils sont surclassés par les SVM et les RF la plupart du temps), pourquoi les CNN concluent-ils avec des couches FC, plutôt que disons un SVM ou un RF?