Il semble que la définition de l'apprentissage supervisé soit un sous - ensemble de l'apprentissage par renforcement, avec un type particulier de fonction de récompense qui est basée sur des données étiquetées (par opposition à d'autres informations dans l'environnement). Est-ce une représentation exacte?