Voici ce que j'ai appris récemment.
Évidemment, lorsque nous parlons de RNN de génération de texte, nous parlons de modèles de langage RNN. Lorsque nous posons des questions sur les RNN de génération de texte basé sur des mots / caractères, nous posons des questions sur les modèles de langage (LM) basés sur des mots / caractères .
Les LM basés sur des mots affichent une précision plus élevée et un coût de calcul inférieur à ceux des LM basés sur des caractères .
Cette baisse de performances est peu probable en raison de la difficulté pour le modèle au niveau des caractères de capturer une mémoire à court terme plus longue, car les réseaux récurrents de mémoire à long terme plus longue (LSTM) fonctionnent mieux avec une entrée basée sur des mots.
En effet, les RNN LM basés sur les caractères nécessitent une couche cachée beaucoup plus grande pour modéliser avec succès les dépendances à long terme, ce qui signifie des coûts de calcul plus élevés.
Par conséquent, nous pouvons dire que
l'une des différences fondamentales entre les modèles au niveau des mots et au niveau des caractères réside dans le nombre de paramètres auxquels le RNN doit accéder pendant la formation et le test. Plus la couche d'entrée et de sortie de RNN est petite, plus la couche cachée entièrement connectée doit être grande, ce qui rend la formation du modèle coûteuse.
Cependant, sur la base char- langues modèle lms RNN mieux avec une morphologie riche tels que finition, turc, russe , etc. En utilisant la base de mots RNN LMs pour modéliser ces langues est difficile , si possible , du tout et n'est pas conseillé.
L'analyse ci-dessus est particulièrement intéressante lorsque vous regardez le texte de sortie, généré par des RNN basés sur des caractères:
La surprise des investisseurs n'allait pas lever d'argent. Je ne suis pas l'entreprise avec le temps là-bas sont tous intéressants rapidement, ne pas avoir à descendre des mêmes programmeurs.
Alors que le simple maximum de vraisemblance basé sur les caractères avec une fenêtre de 13 caractères offre ceci:
Et quand elle a fait beaucoup de briques solides. Il les a empilés en tas et lui a piétiné les pieds. Le médecin lui a diagnostiqué une chauve-souris. La fille et son petit ami lui ont demandé de sortir.
Bien sûr, j'ai choisi l'exemple (en fait, la plupart des exemples ML LM étaient meilleurs que tout texte généré par RNN que j'ai lu jusqu'à présent) et ce petit ML LM a été formé sur un corpus plus simple, mais vous avez l'idée: une probabilité conditionnelle simple génère mieux textes que RNN à base de caractères beaucoup plus complexe .
Les RNN LM basés sur les caractères peuvent imiter des séquences grammaticalement correctes pour un large éventail de langues, nécessitent une couche cachée plus grande et plus coûteuse en calcul tandis que les RNN LM basés sur les mots s'entraînent plus rapidement et génèrent des textes plus cohérents et pourtant, même ces textes générés sont loin d'avoir un sens réel .