J'ai l' architecture de réseau de l'article "apprendre la similitude des images à grain fin avec un classement profond" et je ne peux pas comprendre comment la sortie des trois réseaux parallèles est fusionnée en utilisant la couche d'intégration linéaire. La seule information donnée sur cette couche, dans le papier est
Enfin, nous normalisons les plongements à partir des trois parties et les combinons avec une couche d'intégration linéaire. La dimension de l'incorporation est de 4096.
Quelqu'un peut-il m'aider à comprendre ce que veut dire exactement l'auteur lorsqu'il parle de cette couche?