Je me suis récemment intéressé aux LSTM et j'ai été surpris d'apprendre que les poids sont partagés dans le temps.
Je sais que si vous partagez les pondérations dans le temps, vos séquences temporelles d'entrée peuvent être de longueur variable.
Avec des poids partagés, vous avez beaucoup moins de paramètres à entraîner.
D'après ma compréhension, la raison pour laquelle on se tournerait vers un LSTM contre une autre méthode d'apprentissage est parce que vous pensez qu'il y a une sorte de structure / dépendance temporelle / séquentielle dans vos données que vous aimeriez apprendre. Si vous sacrifiez le luxe de longueur variable et acceptez un temps de calcul long, un RNN / LSTM sans poids partagés (c'est-à-dire pour chaque pas de temps dont vous avez des poids différents) fonctionnerait-il mieux ou y a-t-il quelque chose qui me manque?