Meilleure façon d'initialiser l'état LSTM


10

Je me demandais quelle était la meilleure façon d'initialiser l'état des LSTM. Actuellement, je viens de l'initialiser à tous les zéros. Je ne trouve vraiment rien en ligne sur la façon de l'initialiser. Une chose que je pensais faire était de faire de l'état initial un paramètre entraînable. Aucun conseil?


il y avait un papier quelque part là-bas, je ne me souviens pas de quoi il s'agissait, où ils ont formé l'état initial et obtenu de meilleurs résultats. autrement, je crois que tous les 0 est votre meilleure option
Frobot

Réponses:


8

Normalement, vous devez mettre les états initiaux à zéro, mais le réseau va apprendre à s'adapter à cet état initial.

L' article suivant suggère d'apprendre les états cachés initiaux ou d'utiliser du bruit aléatoire.

Fondamentalement, si vos données comprennent de nombreuses séquences courtes, la formation de l'état initial peut accélérer l'apprentissage.

Alternativement, si vos données incluent un petit nombre de longues séquences, il se peut qu'il n'y ait pas suffisamment de données pour entraîner efficacement l'état initial. Dans ce cas, l'utilisation d'un état initial bruyant peut accélérer l'apprentissage. Une idée qu'ils ne mentionnent pas serait d'apprendre la moyenne et la norme du générateur de bruit.

L'article note que si vous choisissez d'apprendre l'état initial, l'ajout de bruit n'a que peu d'avantages.


veuillez ajouter une référence complète au lieu du lien
Antoine

3
À quoi devrait ressembler la référence?
jpeg729

0

Vous pouvez utiliser des paramètres initialisés qui sont appris à l'aide de l'apprentissage par transfert, mais gardez à l'esprit qu'il a également commencé quelque part à partir d'un état initialisé non appris. Fondamentalement, vous devez commencer à partir d'un certain point, généralement un tas de zéros, puis affiner par la formation. Donc, si vous n'utilisez aucun mécanisme d'apprentissage par transfert, vous devez également partir d'un état initial manuel, je suis sûr qu'il pourrait y avoir des ouvrages disponibles pour définir manuellement les états initiaux.

C'est l'explication la plus simple que je pourrais mettre. Merci.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.