Je travaille sur le papier Cho 2014 qui a introduit l'architecture codeur-décodeur pour la modélisation seq2seq.
Dans l'article, ils semblent utiliser la probabilité de l'entrée donnée en sortie (ou sa probabilité de log négatif) comme fonction de perte pour une entrée de longueur et une sortie de longueur :M y N
Cependant, je pense que je vois plusieurs problèmes à utiliser cela comme une fonction de perte:
- Il semble supposer que le professeur force pendant la formation (c'est-à-dire qu'au lieu d'utiliser la supposition du décodeur pour une position comme entrée pour l'itération suivante, il utilise le jeton connu.
- Cela ne pénaliserait pas les longues séquences. Puisque la probabilité est de à de la sortie, si le décodeur générait une séquence plus longue, tout après le premier ne prendrait pas en compte la perte.
- Si le modèle prédit un premier jeton de fin de chaîne, la fonction de perte exige toujours étapes - ce qui signifie que nous générons des sorties basées sur une "variété" non formée des modèles. Cela semble bâclé.
Certaines de ces préoccupations sont-elles valables? Si oui, y a-t-il eu des progrès vers une fonction de perte plus avancée?