Dans l'article de DeepMind de 2015 sur l'apprentissage par renforcement profond, il déclare que «les tentatives précédentes de combiner RL avec des réseaux de neurones ont échoué en grande partie en raison d'un apprentissage instable». L'article énumère ensuite certaines causes de cela, en fonction des corrélations entre les observations.
S'il vous plaît quelqu'un pourrait-il expliquer ce que cela signifie? S'agit-il d'une forme de sur-ajustement, où le réseau neuronal apprend une structure présente dans l'entraînement, mais qui peut ne pas être présente lors des tests? Ou cela signifie-t-il autre chose?
Le document peut être trouvé: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Et la section que j'essaie de comprendre est:
L'apprentissage par renforcement est connu pour être instable ou même diverger lorsqu'un approximateur de fonction non linéaire tel qu'un réseau de neurones est utilisé pour représenter la fonction de valeur d'action (également connue sous le nom de Q). Cette instabilité a plusieurs causes: les corrélations présentes dans la séquence des observations, le fait que de petites mises à jour de Q peuvent changer de manière significative la politique et donc changer la distribution des données, et les corrélations entre les valeurs d'action et les valeurs cibles.
Nous abordons ces instabilités avec une nouvelle variante de Q-learning, qui utilise deux idées clés. Premièrement, nous avons utilisé un mécanisme d'inspiration biologique appelé réexécution d'expérience qui randomise les données, supprimant ainsi les corrélations dans la séquence d'observation et lissant les changements dans la distribution des données. Deuxièmement, nous avons utilisé une mise à jour itérative qui ajuste les valeurs d'action (Q) vers des valeurs cibles qui ne sont mises à jour que périodiquement, réduisant ainsi les corrélations avec la cible.