Quand dois-je utiliser l'apprentissage par renforcement par rapport au contrôle PID?


12

Lors de la conception de solutions à des problèmes tels que l' atterrissage lunaire sur OpenAIGym , l'apprentissage par renforcement est un moyen tentant de donner à l'agent un contrôle d'action adéquat pour réussir son atterrissage.

Mais dans quels cas les algorithmes des systèmes de contrôle, tels que les contrôleurs PID , feraient-ils un travail adéquat, sinon meilleur, que l'apprentissage par renforcement?

Des questions comme celle-ci font un excellent travail pour aborder la théorie de cette question, mais ne font pas grand-chose pour aborder la composante pratique.

En tant qu'ingénieur en intelligence artificielle, quels éléments d'un domaine problématique devraient me suggérer qu'un contrôleur PID est insuffisant pour résoudre un problème, et qu'un algorithme d'apprentissage par renforcement devrait plutôt être utilisé (ou vice versa)?


L'idée de base que j'ai sur le PID dit que ce n'est pas facile à concevoir. Il a beaucoup d'intégrales et de différentiels impliqués. C'est donc essentiellement la même idée que lorsque vous remplacez les statistiques par des approches ML. Les systèmes de contrôle sont définitivement parfaits mais c'est trop de travail.
DuttaA

2
en fait, ce n'est pas trop de travail, c'est assez standard dans l'industrie, en utilisant des outils de conception de systèmes modernes comme MATLAB, vous pouvez régler le PID ou tout autre contrôleur relativement facilement pour satisfaire vos besoins. L'apprentissage par renforcement n'est pas appliqué dans la pratique car il nécessite une abondance de données et il n'y a pas de garanties théoriques comme c'est le cas pour la théorie de contrôle classique. Soit dit en passant, la conception des contrôleurs n'implique pas de travailler directement avec les intégrales / différentielles, pour les systèmes linéaires, tout le travail est effectué dans le domaine de Laplace, ce qui implique de simples manipulations algébriques
Brale_

@Brale_ mais cela implique encore beaucoup de connaissances théoriques .. Le domaine Laplace ne fait que simplifier le différentiel mais vous devez savoir comment concevoir les choses (pôles et zéros) de sorte que les systèmes ne deviennent pas instables. C'est assez difficile de me visualiser comment ces choses fonctionnent réellement.
DuttaA

2
En règle générale, qui m'a aidé dans des projets antérieurs, si vous ne pouvez pas expliquer la politique optimale (PID, RL ou autre) en quelques phrases, les PID seront vraiment très difficiles. Quelle est la politique optimale pour Pacman?
Jaden Travnik

Réponses:


5

Je pense que les commentaires sont essentiellement sur la bonne voie.

Les contrôleurs PID sont utiles pour trouver des politiques optimales dans des systèmes dynamiques continus, et souvent ces domaines sont également utilisés comme références pour RL, précisément parce qu'il existe une politique optimale facilement dérivée. Cependant, dans la pratique, vous préféreriez évidemment un contrôleur PID pour tout domaine dans lequel vous pouvez facilement en concevoir un: les comportements du contrôleur sont bien compris, tandis que les solutions RL sont souvent difficiles à interpréter.

Où RL brille dans des tâches où nous savons à quoi ressemble un bon comportement (c.-à-d., Nous connaissons la fonction de récompense), et nous savons à quoi ressemblent les entrées de capteur (c.-à-d. Nous pouvons décrire complètement et précisément un état donné numériquement), mais nous avons peu ou aucune idée de ce que nous voulons réellement que l'agent fasse pour obtenir ces récompenses.

Voici un bon exemple:

  • Si je voulais qu'un agent manoeuvre un avion devant un avion ennemi avec des schémas de mouvement connus derrière lui, en utilisant le moins de carburant, je préférerais de loin utiliser un contrôleur PID .

  • Si je voulais faire un agent pour contrôler un avion et abattre un avion ennemi avec suffisamment de carburant pour atterrir, mais sans une description formelle de la façon dont l'avion ennemi pourrait attaquer (peut-être qu'un expert humain le pilotera dans des simulations contre notre agent) , Je préfère de beaucoup RL .

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.