Je lisais les notes de cours d' Andrew Ng sur l'apprentissage par renforcement et j'essayais de comprendre pourquoi l'itération des politiques convergeait vers la fonction de valeur optimale et la politique optimale .
L'itération de la politique de rappel est:
Pourquoi un algorithme gourmand conduit-il à une politique optimale et à une fonction de valeur optimale? (Je sais que les algorithmes gourmands ne garantissent pas toujours cela, ou pourraient rester coincés dans les optima locaux, donc je voulais juste voir une preuve de son optimalité de l'algorithme).
De plus, il me semble que l'itération de politique est quelque chose d'analogue au clustering ou à la descente de gradient. Au clustering, car avec le réglage actuel des paramètres, on optimise. Similaire à la descente de gradient, car il choisit simplement une valeur qui semble augmenter certaines fonctions. Ces deux méthodes ne convergent pas toujours vers des maxima optimaux, et j'essayais de comprendre en quoi cet algorithme était différent des précédents que j'ai mentionnés.
Voici mes pensées jusqu'à présent:
Disons que nous commençons avec une politique , puis après la première étape, pour cette politique fixe, nous avons cela:
Où V ^ {(1)} est la fonction de valeur pour la première itération. Ensuite, après la deuxième étape, nous choisissons une nouvelle stratégie pour augmenter la valeur de . Maintenant, avec la nouvelle politique , si nous faisons la deuxième étape de l'algorithme, l'inégalité suivante est vraie:
Parce que nous choisissons à la deuxième étape pour augmenter la fonction de valeur à l'étape précédente (c'est-à-dire pour améliorer . Jusqu'à présent, il est clair que le choix de ne peut qu'augmenter V ^ {(1)}, car c'est ainsi que nous choisissons . Cependant, ma confusion vient de l'étape de répétition, car une fois que nous répétons et revenons à l'étape 1, nous changeons complètement les choses, car nous recalculons pour la nouvelle stratégie . Qui donne:
mais ce n'est PAS:
Ce qui semble être un problème car été choisi pour améliorer , et non ce nouveau . Fondamentalement, le problème est que garantit d'améliorer en faisant place de lorsque la fonction de valeur est . Mais dans l'étape de répétition, nous changeons en , mais je ne vois pas comment cela garantit que la fonction de valeur s'améliore de façon monotone à chaque répétition car été calculé pour améliorer la fonction de valeur lorsque les fonctions de valeur restent à, mais l'étape 1 change en (ce qui est mauvais car I n'a amélioré que la fonction de valeur précédente que nous avions).