Supposons que vous vouliez aller pêcher au lac voisin de 8h à 20h. En raison de la surpêche, une loi a été adoptée qui stipule que vous ne pouvez attraper qu'un seul poisson par jour. Lorsque vous attrapez un poisson, vous pouvez choisir de le garder (et donc de rentrer chez lui avec ce poisson), ou de le jeter dans le lac et de continuer à pêcher (mais risquez de vous installer plus tard avec un poisson plus petit, ou pas de poisson du tout). Vous voulez attraper un poisson aussi gros que possible; en particulier, vous souhaitez maximiser la masse attendue de poisson que vous ramenez à la maison.
Formellement, nous pourrions régler ce problème comme suit: les poissons sont capturés à un certain rythme (donc, le temps qu'il faut pour attraper votre prochain poisson suit une distribution exponentielle connue), et la taille des poissons capturés suit une certaine distribution (également connue) . Nous voulons un processus de décision qui, compte tenu de l'heure actuelle et de la taille d'un poisson que vous venez de capturer, décide de garder le poisson ou de le renvoyer.
La question est donc: comment prendre cette décision? Existe-t-il un moyen simple (ou compliqué) de décider quand arrêter de pêcher? Je pense que le problème revient à déterminer, pour un temps donné t, quelle masse de poisson attendue qu'un pêcheur optimal ramènerait à la maison s'il commençait au temps t; le processus de décision optimal garderait un poisson si et seulement si le poisson est plus lourd que cette masse attendue. Mais cela semble en quelque sorte autoréférentiel; nous définissons la stratégie de pêche optimale en termes de pêcheur optimal, et je ne sais pas trop comment procéder.