Le site Web sur l' intelligence artificielle définit l'apprentissage hors politique et en ligne comme suit:
"Un apprenant hors politique apprend la valeur de la politique optimale indépendamment des actions de l'agent. Q-learning est un apprenant hors politique. Un apprenant en politique découvre la valeur de la politique mise en œuvre par l'agent, y compris les étapes d'exploration. . "
J'aimerais vous demander des éclaircissements à ce sujet, car ils ne semblent pas faire de différence pour moi. Les deux définitions semblent identiques. Ce que j’ai bien compris, c’est l’apprentissage sans modèle et basé sur un modèle, et je ne sais pas s’ils ont quelque chose à voir avec ceux en question.
Comment est-il possible que la stratégie optimale soit apprise indépendamment des actions de l'agent? La stratégie n'est-elle pas apprise lorsque l'agent exécute les actions?