ÉDITER
Le lien de @ unutbu dans le commentaire est une bonne lecture d'introduction.
Une bonne compréhension d'AlphaZero nécessite très probablement un diplôme quantitatif (PhD?). Demandez-vous un cours intensif dans AlphaZero?
Veuillez noter que sauf si vous investissez une grande partie de votre temps, rien de ce que je dis ne fonctionnera. Aucun livre ne peut tout couvrir. Vous devrez travailler très dur.
Essayons. Cours intensif pour AlphaZero.
1. Compréhension de base de l'apprentissage automatique
Un nombre incalculable de livres. Mais si vous n'avez pas le temps, je recommanderais les cours d'apprentissage automatique du professeur Andrew Ng sur Coursera.
Vos mots clés: ensembles d'entraînement, ensembles de test, descente de gradient stochastique, taux d'apprentissage, GPU, fonction de coût, entropie croisée .
2. Réseaux neutres profonds
Vous devez comprendre les réseaux de neurones. Je recommanderais le livre d'apprentissage approfondi du professeur Ian Goodfellow si vous êtes sérieux. Si vous n'avez pas le temps, veuillez à nouveau suivre le cours en ligne du professeur Andrew Ng sur Coursera. Vous n'êtes pas obligé de parcourir tous les chapitres (mais vous devriez!).
YouTube propose de nombreuses présentations rapides des réseaux de neurones, essayez-les.
Vos mots clés: neurone, couches, poids, biais, mini-batch, activation .
3. Monte Carlo Tree Search
Vous devez comprendre ce qu'est Monte Carlo. Des livres sur Monte-Carlo sont partout sur Amazon. Lisez le wikipedia sur les SCTM si vous n'avez pas le temps.
Vos mots clés: échantillonnage, expansion, simulation, déploiements, rétropropagation .
3. Apprentissage par renforcement
Vos mots clés: gradient politique, descente de gradient, taux d'apprentissage
5. Représentation de l'échiquier
Le papier lui-même est le plus simple. Le modèle code l'état de la carte (par exemple des pièces) sous la forme d'une série de valeurs binaires de codage à chaud.
6. SCTM vs alpha-bêta