Je modélise 15000 tweets pour la prédiction des sentiments en utilisant un LSTM monocouche avec 128 unités cachées en utilisant une représentation de type word2vec avec 80 dimensions. J'obtiens une précision de descente (38% avec aléatoire = 20%) après 1 époque. Plus l'entraînement fait baisser la précision de validation à mesure que la précision de la formation commence à grimper - un signe clair de sur-ajustement.
Je pense donc à des moyens de régularisation. Je préfère ne pas réduire le nombre d'unités cachées (128 semble déjà un peu faible). J'utilise actuellement le décrochage avec une probabilité de 50%, mais cela pourrait peut-être être augmenté. L'optimiseur est Adam avec les paramètres par défaut pour Keras ( http://keras.io/optimizers/#adam ).
Quels sont les moyens efficaces de réduire le sur-ajustement pour ce modèle sur mon jeu de données?