Je veux créer une IA qui peut jouer à cinq dans une rangée / gomoku. Comme je l'ai mentionné dans le titre, je veux utiliser l'apprentissage par renforcement pour cela.
J'utilise la méthode du gradient de politique , à savoir REINFORCE, avec la ligne de base. Pour l'approximation de la valeur et de la fonction politique, j'utilise un réseau neuronal . Il a des couches convolutives et entièrement connectées. Toutes les couches, à l'exception de la sortie, sont partagées. La couche de sortie de la stratégie a (la taille de la carte) et un softmax sur eux. C'est donc stochastique. Mais que se passe-t-il si le réseau produit une probabilité très élevée pour un mouvement invalide? Un déplacement invalide se produit lorsque l'agent veut vérifier un carré contenant un "X" ou un "O". Je pense qu'il peut rester dans cet état de jeu.
Pourriez-vous recommander une solution à ce problème?
Ma conjecture est d'utiliser la méthode acteur-critique . Pour un coup invalide, nous devons donner une récompense négative et passer le tour à l'adversaire.