Après avoir lu les réalisations de google deepmind sur les jeux d'Atari , j'essaie de comprendre le q-learning et les q-réseaux, mais je suis un peu confus. La confusion survient dans le concept du facteur d'actualisation. Bref résumé de ce que je comprends. Un réseau neuronal convolutionnel profond est utilisé pour estimer la valeur de la valeur attendue optimale d'une action. Le réseau doit minimiser la fonction de perte où est \ mathbb {E} \ gauche [r + \ gamma max_ { a '} Q (s', a '; \ theta ^ -_ i) \ right | s, a] Où Q est une valeur de score cumulée et r
Du point de vue mathématique est le facteur d'actualisation et représente la probabilité d'atteindre l'état partir de l'état .
Je suppose que le réseau apprend réellement à redimensionner le selon la vraie valeur de , alors pourquoi ne pas laisser ?