L'algorithme tabulaire d'apprentissage Q est garanti pour trouver la fonction optimale , , à condition que les conditions suivantes (les conditions Robbins-Monro ) concernant le taux d'apprentissage soient remplies
où signifie le taux d'apprentissage utilisé lors de la mise à jour de la valeur associée à l'état et à l'action au pas de temps , où est supposé être vrai, pour tous les Etats et des actions .
Apparemment, étant donné que , pour que les deux conditions soient vraies, toutes les paires état-action doivent être visitées à l'infini souvent: cela est également indiqué dans le livre Reinforcement Learning: An Introduction , outre le fait que cela devrait être largement connu et que c'est la raison d'être de l'utilisation de la politique -regedy (ou des politiques similaires) pendant la formation.
Une preuve complète qui montre que -learning trouve le Q optimal fonction peut être trouvée dans l'article Convergence of Q-learning: A Simple Proof (par Francisco S. Melo). Il utilise des concepts comme la cartographie de contraction afin de définir la fonction optimale (voir aussi Qu'est-ce que l'opérateur Bellman dans l'apprentissage par renforcement? ), Qui est un point fixe de cet opérateur de contraction. Il utilise également un théorème (n. 2) concernant le processus aléatoire qui converge vers , compte tenu de quelques hypothèses. (La preuve peut ne pas être facile à suivre si vous n'êtes pas un mathématicien.)
Si un réseau de neurones est utilisé pour représenter fonction Q , les garanties de convergence de l'apprentissage elles toujours valables? Pourquoi (ou non) Q-learning converge-t-il lors de l'utilisation de l'approximation de fonction? Existe-t-il une preuve formelle d'une telle non-convergence de l'apprentissage utilisant l'approximation de fonction?
Je recherche différents types de réponses, de celles qui donnent juste l'intuition derrière la non-convergence du learning lors de l'utilisation de l'approximation de fonction à celles qui fournissent une preuve formelle (ou un lien vers un article avec une preuve formelle).