Est-ce que quelqu'un connaît l'exemple d'un algorithme Williams proposé dans l'article "Une classe d'algorithmes d'estimation de gradient pour l'apprentissage par renforcement dans les réseaux de neurones" http://incompleteideas.net/sutton/williams-92.pdf