J'essaie donc de faire de la pré-formation sur des images d'humains en utilisant des filets convolutionnels. Je lis les journaux ( article1 et Epais2 ) et ce lien stackoverflow , mais je ne suis pas sûr que je suis comprendre la structure des filets (il est pas bien défini dans les journaux).
Des questions:
Je peux avoir mon entrée suivie d'une couche de bruit suivie d'une couche conv, suivie d'une couche de regroupement - là après - dois-je désassocier avant de donner ma sortie (qui est la même que mon image d'entrée)?
Disons que j'ai plusieurs (135 240) images. Si j'utilise 32, (12,21) noyaux, puis (2,2) la mise en commun, je me retrouverai avec 32 (62, 110) cartes de fonctionnalités. Est-ce que maintenant je désassemble pour obtenir 32 (124, 220) cartes d'entités et ensuite les aplatir? avant de donner ma (135 240) couche de sortie?
Si j'ai plusieurs de ces couches de pool de conv, dois-je les former une par une - comme dans les autoencodeurs débruits empilés? Ou - puis-je avoir quelque chose comme input-conv-pool-conv-pool-conv-pool-output (la sortie étant la même que l'entrée)? Dans ce cas, comment le pooling, le dépooling est-il censé être géré? Dois-je uniquement désassembler la dernière couche de pool avant la sortie? Et encore une fois - quel devrait être le facteur de redimensionnement de cette mise en commun? L'intention est-elle de ramener les cartes d'entités à la forme de l'entrée?
Dois-je introduire des couches de bruit après chaque couche conv-pool-depool?
Et puis, lors du réglage fin - suis-je censé simplement supprimer les couches de désagrégation et laisser le reste inchangé. Ou dois-je supprimer à la fois les couches de bruit et les couches de désassemblage
Quelqu'un peut-il m'indiquer une URL / papier qui a détaillé l'architecture d'un tel encodeur automatique convolutionnel empilé pour faire une pré-formation sur les images?