J'envisage de programmer un robot suiveur de ligne en utilisant des algorithmes d'apprentissage par renforcement. La question que je réfléchis est de savoir comment puis-je obtenir l'algorithme pour apprendre à naviguer à travers un chemin arbitraire?
Après avoir suivi le livre Sutton & Barto pour l'apprentissage par renforcement, j'ai résolu un problème d'exercice impliquant une piste de course où l'agent de voiture a appris à ne pas sortir de la piste et à réguler sa vitesse. Cependant, ce problème d'exercice a permis à l'agent d'apprendre à naviguer sur la piste sur laquelle il s'est entraîné.
Est-ce dans le cadre de l'apprentissage par renforcement que d'obtenir un robot pour parcourir des chemins arbitraires? L'agent doit-il absolument avoir une carte du circuit ou du parcours de course? Quels paramètres pourrais-je éventuellement utiliser pour mon espace d'état?