Nous pouvons décomposer le problème comme suit:
<x0,y0,x1,y1>(x0−y0)2+(x1−y1)2−−−−−−−−−−−−−−−−−−√
<x0,y0,x1,y1>
Bien sûr, il n'y a aucune raison de le faire dans deux réseaux neuronaux distincts, nous pouvons donc simplement combiner les deux bout en bout avec un modèle qui prend l'image en entrée et la distance en sortie.
Ce modèle devrait cependant être formé sur les données étiquetées, de sorte que vous auriez besoin de générer les données vous-même ou d'étiqueter les images.
Mais si vous vouliez qu'il apprenne la notion de réduction d'une distance de manière moins supervisée, vous auriez besoin d'utiliser l'apprentissage par renforcement. Dans ce cas, vous devez configurer un environnement qui incite l'agent à réduire la distance. Cela pourrait être aussi simple que de gagner une récompense si une action réduit la distance.
Une autre approche consisterait à inciter l'agent à utiliser une récompense future. Autrement dit, sa récompense ne vient pas seulement des résultats du prochain état immédiat, mais il y a aussi des contributions du prochain état possible, et de celui qui suit, et ainsi de suite. C'est l'idée derrière Deep Q-Learning, et j'implémente un exemple simple (très similaire à ce que vous décrivez) dans ce cahier .
Donc, maintenant la question est: cette implémentation a-t-elle fait autre chose que de se déplacer au hasard jusqu'à ce qu'elle suive le chemin du succès?
Dans votre exemple, vous parlez de récompenser l'agent lorsqu'il atterrit sur l'objectif. Mais dans ce que j'ai décrit, il a été récompensé en se rapprochant de l'objectif (soit via la fonction Q, soit directement depuis l'environnement). Il peut le faire en apprenant une idée abstraite de la distance (qui peut être illustrée dans la version supervisée).
Quand un humain apprend cela, c'est pour la même raison exacte: l'homme gagne une récompense pour s'être déplacé dans cette direction grâce à un sentiment de récompenses futures.
Je dirais que, avec suffisamment de formation et de données, l'apprentissage par renforcement pourrait facilement apprendre ce concept. En ce qui concerne les autres récompenses présentes sur le tableau (par exemple, "minimisez l'entropie du tableau et essayez d'obtenir des récompenses"), vous devez réfléchir à ce que vous demandez. Préférez-vous que l'agent minimise la distance ou maximise la récompense? Parce qu'en général, il ne peut pas faire les deux. Si vous recherchez un équilibre entre les deux, alors vous redéfinissez simplement la récompense pour prendre également en compte la distance.