Je ne suis pas un spécialiste du sujet, et ma question est probablement très naïve. Il découle d'un essai pour comprendre les pouvoirs et les limites de l'apprentissage par renforcement tel qu'il est utilisé dans le programme AlphaGo.
Le programme AlphaGo a été construit en utilisant, entre autres (exploration Monte-Carlo des arbres, etc.), des réseaux de neurones qui sont formés à partir d'une énorme base de données de jeux de go joués par l'homme, et qui sont ensuite renforcés en laissant jouer des versions du programme contre lui-même plusieurs fois.
Maintenant, je me demande ce qui se passerait si nous essayions de construire un tel programme sans base de données humaine, c'est-à-dire en commençant par un programme de base de Go en connaissant simplement les règles et une méthode pour explorer les arbres, et en laissant jouer contre lui-même pour améliorer son réseau neuronal. Arriverons-nous, après de nombreux matchs contre lui-même, à un programme capable de rivaliser avec ou battre les meilleurs joueurs humains? Et si oui, combien de jeux (par ordre de grandeur) seraient nécessaires pour cela? Ou au contraire, un tel programme convergera-t-il vers un acteur beaucoup plus faible?
Je suppose que l'expérience n'a pas été faite, puisque AlphaGo est si récent. Mais la réponse peut néanmoins être évidente pour un spécialiste. Sinon, toute supposition éclairée m'intéressera.
On peut aussi se poser la même question pour les jeux "plus simples". Si nous utilisons à peu près les mêmes techniques d'apprentissage par renforcement utilisées pour AlphaGo, mais sans utilisation de base de données humaine, pour un programme d'échecs, aurions-nous finalement un programme capable de battre le meilleur humain? Et si oui, à quelle vitesse? Cela a-t-il été essayé? Ou si ce n'est pas pour les échecs, qu'en est-il des dames ou des jeux encore plus simples?
Merci beaucoup.