Lors de la conception de solutions à des problèmes tels que l' atterrissage lunaire sur OpenAIGym , l'apprentissage par renforcement est un moyen tentant de donner à l'agent un contrôle d'action adéquat pour réussir son atterrissage.
Mais dans quels cas les algorithmes des systèmes de contrôle, tels que les contrôleurs PID , feraient-ils un travail adéquat, sinon meilleur, que l'apprentissage par renforcement?
Des questions comme celle-ci font un excellent travail pour aborder la théorie de cette question, mais ne font pas grand-chose pour aborder la composante pratique.
En tant qu'ingénieur en intelligence artificielle, quels éléments d'un domaine problématique devraient me suggérer qu'un contrôleur PID est insuffisant pour résoudre un problème, et qu'un algorithme d'apprentissage par renforcement devrait plutôt être utilisé (ou vice versa)?