Alors, quel est le problème avec LSTM?

J'élargis mes connaissances sur le package Keras et j'ai travaillé avec certains des modèles disponibles. J'ai un problème de classification binaire PNL que j'essaie de résoudre et j'ai appliqué différents modèles.

Après avoir travaillé avec quelques résultats et lu de plus en plus sur LSTM, il semble que cette approche soit de loin supérieure à tout ce que j'ai essayé (sur plusieurs jeux de données). Je n'arrête pas de me demander: "pourquoi / quand n'utiliseriez-vous pas LSTM?". L'utilisation des portes supplémentaires, inhérentes à LSTM, est parfaitement logique pour moi après avoir eu certains modèles qui souffrent de gradients de fuite.

Alors, quel est le problème avec LSTM? Où ne font-ils pas si bien? Je sais qu'il n'y a pas d'algorithme «taille unique», donc il doit y avoir un inconvénient au LSTM.

— I_Play_With_Data
source

Essayez GRU, ils sont comme LSTM mais nécessitent moins de mémoire et s'entraînent plus rapidement.

— Vivek Khetan

Vous avez raison de dire que les LSTM fonctionnent très bien pour certains problèmes, mais certains des inconvénients sont les suivants:

Les LSTM mettent plus de temps à s'entraîner
Les LSTM nécessitent plus de mémoire pour s'entraîner
Les LSTM sont faciles à équiper
Le décrochage est beaucoup plus difficile à mettre en œuvre dans les LSTM
Les LSTM sont sensibles aux différentes initialisations de poids aléatoire

Ceux-ci sont en comparaison avec un modèle plus simple comme un filet de conv 1D, par exemple.

Les trois premiers éléments sont dus au fait que les LSTM ont plus de paramètres.

— Imran
source

D'accord, et je pense que le sur-ajustement (aka mauvaise généralisation) est peut-être le plus grand risque. Assurez-vous d'avoir une bonne stratégie pour effectuer la validation du modèle.

— tom