Dans les algorithmes d' itération de stratégie , vous commencez avec une stratégie aléatoire, puis recherchez la fonction de valeur de cette stratégie (étape d'évaluation de stratégie), puis recherchez une nouvelle stratégie (améliorée) basée sur la fonction de valeur précédente, et ainsi de suite. Dans ce processus, chaque politique est garantie d'être une amélioration stricte par rapport à la précédente (à moins qu'elle ne soit déjà optimale). Étant donné une politique, sa fonction de valeur peut être obtenue à l'aide de l' opérateur Bellman .
Dans l' itération de valeur , vous commencez avec une fonction de valeur aléatoire, puis vous trouvez une nouvelle fonction de valeur (améliorée) dans un processus itératif, jusqu'à atteindre la fonction de valeur optimale. Notez que vous pouvez facilement dériver la stratégie optimale à partir de la fonction de valeur optimale. Ce processus est basé sur l' optimalité de l'opérateur Bellman .
Dans un certain sens, les deux algorithmes partagent le même principe de fonctionnement, et ils peuvent être considérés comme deux cas d' itération de politique généralisée . Cependant, l'opérateur Bellman d'optimalité contient un opérateur max , qui n'est pas linéaire et, par conséquent, il a des caractéristiques différentes. De plus, il est possible d'utiliser des méthodes hybrides entre l'itération de valeur pure et l'itération de politique pure.