J'ai un doute sur la formation exacte de la fonction de perte d'un réseau Deep Q-Learning. J'utilise un réseau feedforward à 2 couches avec une couche de sortie linéaire et des couches cachées relu.
- Supposons que j'ai 4 actions possibles. Ainsi, la sortie de mon réseau pour l'état actuel est . Pour le rendre plus concret, supposons
- Maintenant je passe à l'action correspondant à la valeur c'est à dire la 3ème action, et atteindre un nouvel état .
- Ensuite, je calcule la passe avant avec l'état et disons que j'obtiens les valeurs suivantes sur la couche de sortie . Disons aussi que la récompense, et .
La perte est-elle due à:
OU
OU
Merci, désolé d'avoir dû écrire ceci d'une manière très basique ... Je suis confus par toute la notation. (Je pense que la bonne réponse est la deuxième ...)