Quels sont les avantages, pourquoi utiliserait-on plusieurs LSTM, empilés côte à côte, dans un réseau profond? J'utilise un LSTM pour représenter une séquence d'entrées en tant qu'entrée unique. Donc, une fois que j'ai cette représentation unique - pourquoi la repasserais-je?
Je pose la question parce que je l'ai vu dans un programme de génération en langage naturel.