Conférence / Livre sur AlphaGo / AlphaZero


8

Je suis très intéressé par la façon dont AlphaGo resp. AlphaZero fonctionne. Il me semble que les documents Google associés sont très denses et difficiles à lire.

Y a-t-il un manuel ou une conférence qui explique au niveau technique comment tout cela fonctionne? C'est-à-dire en commençant par les réseaux de neurones / l'apprentissage profond, Monte Carlo Tree Search jusqu'à atteindre AlphaGo / AlphaZero?

J'ai un master en informatique, mais je n'ai jamais travaillé avec l'intelligence artificielle / l'apprentissage automatique.

À l'heure actuelle, il me semble que toutes les informations connexes sont dispersées, et je n'ai pas le temps d'écouter des conférences (en ligne) sur l'apprentissage automatique qui ne contiennent peut-être que 10% de ce qui est pertinent pour comprendre AlphaGo ...

Quelqu'un peut me diriger dans la bonne direction?



2
merci pour le lien, mais cette présentation est vraiment superficielle
ndbd

Réponses:


10

ÉDITER

Le lien de @ unutbu dans le commentaire est une bonne lecture d'introduction.


Une bonne compréhension d'AlphaZero nécessite très probablement un diplôme quantitatif (PhD?). Demandez-vous un cours intensif dans AlphaZero?

Veuillez noter que sauf si vous investissez une grande partie de votre temps, rien de ce que je dis ne fonctionnera. Aucun livre ne peut tout couvrir. Vous devrez travailler très dur.

Essayons. Cours intensif pour AlphaZero.

1. Compréhension de base de l'apprentissage automatique

Un nombre incalculable de livres. Mais si vous n'avez pas le temps, je recommanderais les cours d'apprentissage automatique du professeur Andrew Ng sur Coursera.

Vos mots clés: ensembles d'entraînement, ensembles de test, descente de gradient stochastique, taux d'apprentissage, GPU, fonction de coût, entropie croisée .

2. Réseaux neutres profonds

Vous devez comprendre les réseaux de neurones. Je recommanderais le livre d'apprentissage approfondi du professeur Ian Goodfellow si vous êtes sérieux. Si vous n'avez pas le temps, veuillez à nouveau suivre le cours en ligne du professeur Andrew Ng sur Coursera. Vous n'êtes pas obligé de parcourir tous les chapitres (mais vous devriez!).

YouTube propose de nombreuses présentations rapides des réseaux de neurones, essayez-les.

Vos mots clés: neurone, couches, poids, biais, mini-batch, activation .

3. Monte Carlo Tree Search

Vous devez comprendre ce qu'est Monte Carlo. Des livres sur Monte-Carlo sont partout sur Amazon. Lisez le wikipedia sur les SCTM si vous n'avez pas le temps.

Vos mots clés: échantillonnage, expansion, simulation, déploiements, rétropropagation .

3. Apprentissage par renforcement

Vos mots clés: gradient politique, descente de gradient, taux d'apprentissage

5. Représentation de l'échiquier

Le papier lui-même est le plus simple. Le modèle code l'état de la carte (par exemple des pièces) sous la forme d'une série de valeurs binaires de codage à chaud.

6. SCTM vs alpha-bêta

entrez la description de l'image ici


4
merci beaucoup pour la réponse détaillée. Il semble donc qu'il n'y ait malheureusement pas de guide simple. Mon point est que, bien sûr, en tant que major CS, je connais les réseaux de neurones, mais pas le type spécifique de réseaux profonds utilisés dans Alpha *. Je connais à peu près les SCTM introduits par Bernd Brügmann, mais pas le type spécifique d'adaptation pour Alpha *. Idem pour l'apprentissage par renforcement. Par exemple, le cours d'Andrew Ng sur le BC est très large et couvre des sujets comme PCA / LDA, qui, à ma connaissance, sont complètement hors de propos ici. Mais je suppose que je dois m'en sortir moi-même alors ;-)
ndbd

7

Je n'ai pas assez de réputation pour commenter, mais AlphaGo Zero expliqué dans un diagramme est assez bon.

J'aime aussi beaucoup ce tutoriel.

Notez que le premier lien ne décrit pas quand créer (développer) des nœuds. Cette partie peut être un peu déroutante. Ce lien peut vous aider.


C'est bon. Je l'aime. +1.
SmallChess

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.