L'apprentissage par renforcement peut-il être appliqué pour la prévision de séries chronologiques?

Oui, mais en général, ce n'est pas un bon outil pour la tâche, à moins qu'il y ait une rétroaction importante entre les prévisions et le comportement continu du système.

Pour construire un problème d'apprentissage par renforcement (RL) où il vaut la peine d'utiliser un algorithme de prédiction ou de contrôle RL, vous devez identifier certains composants:

Un environnement qui se trouve dans l'un des nombreux états qui peuvent être mesurés / observés dans une séquence.
Un agent qui peut observer l' état actuel et entreprendre des actions dans la même séquence.
L'évolution de l' état dans la séquence devrait dépendre d'une combinaison de l' état actuel et de l' action entreprise, et peut également être stochastique.
Il devrait y avoir un signal de récompense que l'agent RL peut observer ou mesurer. La valeur de la récompense devrait dépendre des mêmes facteurs que l'évolution de l'État, mais peut en dépendre d'une manière différente.

Le cas général de la prévision de séries chronologiques peut être adapté à cela en traitant la prédiction comme l'action, ayant l'évolution de l'état dépend uniquement de l'état actuel (plus le hasard) et la récompense basée sur l'état et l'action. Cela permettra d'appliquer RL, mais la causalité ne circule que dans un sens - de l'environnement vers votre modèle prédictif. En tant que tel, le mieux que vous puissiez faire pour les récompenses, par exemple, est d'utiliser des mesures concernant l'exactitude des prédictions. Les conséquences pour les bonnes ou les mauvaises prédictions n'affectent pas l'environnement d'origine. Essentiellement, vous finirez par envelopper un modèle prédictif pour la séquence (comme un réseau de neurones) dans une couche RL qui pourrait facilement être remplacée par une gestion de base des ensembles de données pour un problème d'apprentissage supervisé.

Une façon vous pouvez étendre de manière significative les problèmes de prévision de la série des problèmes RL est d'augmenter la portée de l'environnement afin d' inclure les décisions prises en fonction des prévisions, et l'état des systèmes concernés par ces décisions. Par exemple, si vous prévoyez le cours des actions, incluez votre portefeuille et vos fonds en l'état. De même, les actions cessent d'être des prédictions, devenant des commandes d'achat et de vente. Cela n'améliorera pas la composante de prévision des prix (et vous feriez probablement mieux de traiter cela comme un problème distinct, en utilisant des outils plus appropriés - par exemple LSTM), mais cela formulera le problème globalement comme un problème RL.

— Neil Slater
source