Le principal problème avec l'apprentissage TD et DP est que leurs mises à jour de pas sont biaisées sur les conditions initiales des paramètres d'apprentissage. Le processus d'amorçage met généralement à jour une fonction ou recherche Q (s, a) sur une valeur de successeur Q (s ', a') en utilisant quelles que soient les estimations actuelles dans cette dernière. De toute évidence, au tout début de l'apprentissage, ces estimations ne contiennent aucune information provenant de récompenses réelles ou de transitions d'état.
Si l'apprentissage fonctionne comme prévu, le biais se réduira asymptotiquement sur plusieurs itérations. Cependant, le biais peut causer des problèmes importants, en particulier pour les méthodes hors politique (par exemple Q Learning) et lors de l'utilisation d'approximateurs de fonction. Cette combinaison est si susceptible de ne pas converger qu'elle est appelée la triade mortelle de Sutton & Bart.
Les méthodes de contrôle de Monte Carlo ne souffrent pas de ce biais, car chaque mise à jour est effectuée en utilisant un véritable échantillon de ce que Q (s, a) devrait être. Cependant, les méthodes de Monte Carlo peuvent souffrir d'une variance élevée, ce qui signifie que davantage d'échantillons sont nécessaires pour atteindre le même degré d'apprentissage par rapport à la TD.
En pratique, l'apprentissage TD semble apprendre plus efficacement si les problèmes avec la triade mortelle peuvent être surmontés. Des résultats récents utilisant la relecture d'expérience et des copies «gelées» d'estimateurs fournissent des solutions de contournement qui résolvent les problèmes - par exemple, c'est ainsi que l'apprenant DQN pour les jeux Atari a été construit.
Il existe également un juste milieu entre la TD et Monte-Carlo. Il est possible de construire une méthode généralisée qui combine des trajectoires de différentes longueurs - du TD en une seule étape à des épisodes complets à Monte Carlo - et de les combiner. La variante la plus courante est l' apprentissage TD ( ), où est un paramètre de (apprentissage TD en une seule étape) à (effectivement apprentissage Monte Carlo, mais avec une fonctionnalité intéressante qu'il peut être utilisé en continu problèmes). En règle générale, une valeur comprise entre et fait l'agent d'apprentissage le plus efficace - bien que comme de nombreux hyperparamètres, la meilleure valeur à utiliser dépend du problème.λ 0 1 0 1λλ0101
Si vous utilisez une méthode basée sur les valeurs (par opposition à une méthode basée sur des politiques), l'apprentissage TD est généralement plus utilisé dans la pratique, ou une méthode de combinaison TD / MC telle que TD (λ) peut être encore meilleure.
En termes d '"avantage pratique" pour MC? L'apprentissage de Monte Carlo est conceptuellement simple, robuste et facile à mettre en œuvre, bien que souvent plus lent que TD. Je ne l'utiliserais généralement pas pour un moteur de contrôleur d'apprentissage (sauf si vous êtes pressé d'implémenter quelque chose pour un environnement simple), mais je l'envisagerais sérieusement pour l'évaluation des politiques afin de comparer plusieurs agents par exemple - cela est dû au fait qu'il s'agit d'un mesure impartiale, ce qui est important pour les tests.