J'élargis mes connaissances sur le package Keras et j'ai travaillé avec certains des modèles disponibles. J'ai un problème de classification binaire PNL que j'essaie de résoudre et j'ai appliqué différents modèles.
Après avoir travaillé avec quelques résultats et lu de plus en plus sur LSTM, il semble que cette approche soit de loin supérieure à tout ce que j'ai essayé (sur plusieurs jeux de données). Je n'arrête pas de me demander: "pourquoi / quand n'utiliseriez-vous pas LSTM?". L'utilisation des portes supplémentaires, inhérentes à LSTM, est parfaitement logique pour moi après avoir eu certains modèles qui souffrent de gradients de fuite.
Alors, quel est le problème avec LSTM? Où ne font-ils pas si bien? Je sais qu'il n'y a pas d'algorithme «taille unique», donc il doit y avoir un inconvénient au LSTM.