Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si l'objectif est de modéliser une distribution conjointe , alors chaque échantillon d'apprentissage doit être tiré iid de cette distribution.
Si l'objectif est plutôt de modéliser une distribution conditionnelle , alors comment l'exigence iid change-t-elle, le cas échéant?
- Faut-il encore tirer chaque échantillon iid de la distribution conjointe?
- Faut-il tirer iid de , puis dessiner iid de ?
- Peut-on tirer non iid de (par exemple corrélé dans le temps), puis tirer iid de ?
Pouvez-vous commenter la validité de ces trois approches pour la descente de gradient stochastique? (Ou aidez-moi à reformuler la question si nécessaire.)
J'aimerais faire # 3 si possible. Mon application est en apprentissage par renforcement, où j'utilise un modèle conditionnel paramétré comme politique de contrôle. La séquence des états est fortement corrélée, mais les actions sont échantillonnées iid à partir d'une politique stochastique conditionnée à l'état. Les échantillons résultants (ou un sous-ensemble d'entre eux) sont utilisés pour former la politique. (En d'autres termes, imaginez exécuter une stratégie de contrôle pendant longtemps dans un environnement, en collectant un ensemble de données d'échantillons d'état / d'action. Ensuite, même si les états sont corrélés dans le temps, les actions sont générées indépendamment, conditionnées par l'état.) Ceci est quelque peu similaire à la situation dans ce document .
J'ai trouvé un article, Ryabko, 2006, « Pattern Recognition for Conditionally Independent Data », qui semblait à première vue pertinent; cependant, la situation est inversée par rapport à ce dont j'ai besoin, où (l'étiquette / catégorie / action) peut être tirée non iid de , et (l'objet / motif / état) est dessiné iid de .x i P ( X | Y )
Mise à jour: Deux articles ( ici et ici ) mentionnés dans l'article de Ryabko semblent pertinents ici. Ils supposent que le provient d'un processus arbitraire (par exemple pas iid, éventuellement non stationnaire). Ils montrent que les estimateurs du plus proche voisin et du noyau sont cohérents dans ce cas. Mais je suis plus intéressé à savoir si l'estimation basée sur la descente de gradient stochastique est valide dans cette situation.