J'ai développé un programme d'échecs qui utilise un algorithme d'élagage alpha-bêta et une fonction d'évaluation qui évalue les positions en utilisant les caractéristiques suivantes à savoir le matériel, la sécurité du roi, la mobilité, la structure du pion et les pièces piégées, etc. ... Ma fonction d'évaluation est dérivé de la
où est le poids attribué à chaque fonction. À ce stade, je veux régler les poids de ma fonction d'évaluation en utilisant la différence temporelle, où l'agent joue contre lui-même et, dans le processus, collecte des données de formation de son environnement (qui est une forme d'apprentissage par renforcement). J'ai lu quelques livres et articles afin d'avoir un aperçu sur la façon de mettre en œuvre cela en Java, mais ils semblent être théoriques plutôt que pratiques. J'ai besoin d'une explication détaillée et de pseudo-codes sur la façon de régler automatiquement les poids de ma fonction d'évaluation en fonction des jeux précédents.