Un argument facilement compréhensible selon lequel les méthodes Runge – Kutta normales ne peuvent pas être généralisées aux SDE?

Une approche naïve pour résoudre les équations différentielles stochastiques (SDE) serait:

prendre une méthode Runge – Kutta régulière en plusieurs étapes,
utiliser une discrétisation suffisamment fine du processus de Wiener sous-jacent,
faire chaque étape de la méthode Runge – Kutta analogue à un Euler – Maruyama.

Maintenant, cela échoue à plusieurs niveaux et je comprends pourquoi. Cependant, je dois maintenant convaincre les gens de ce fait qui ont peu de connaissances sur les méthodes de Runge – Kutta et les équations différentielles stochastiques pour commencer. Tous les arguments que je connais ne sont rien que je puisse bien communiquer dans le contexte donné. Par conséquent, je recherche un argument facilement compréhensible selon lequel l'approche ci-dessus est vouée à l'échec.

runge-kutta education stochastic-ode

— Wrzlprmft
source

@BiswajitBanerjee: J'en suis conscient et je ne prétends en effet pas l'avoir compris le plus profondément possible. Je ne pense toujours pas que fournir tous les arguments ici améliorera la réponse, car ceux qui peuvent fournir une réponse en sont conscients. De plus, ce cas est quelque peu spécial car il s'agit d'expliquer pourquoi quelque chose ne fonctionne pas , pour lequel il existe naturellement de nombreuses réponses, à commencer par «nous l'avons testé et il a échoué».

— Wrzlprmft

Je ne parlais pas d'experts en ODE stochastiques mais du lecteur moyen qui comprend les variables aléatoires et RK quand j'ai dit "nous". Cependant, je ne vous dérangerai pas plus si vous ne voulez pas donner un exemple de votre pensée.

— Biswajit Banerjee

Prenons une équation différentielle stochastique:

X_{t} = f (t, X_{t}) d t + g (t, X_{t}) d W_{t}

$X_t = f(t,X_t)dt + g(t,X_t)dW_t$

Voici quelques arguments différents qui permettent de comprendre intuitivement pourquoi les mathématiques derrière les méthodes d'ordre supérieur sont nécessaires. Je vais discuter en termes d'ordre fort, ce qui revient à dire "pour un mouvement brownien , dans quelle mesure l'intégrale numérique résout-elle cette trajectoire?" $W(t)$

Régularité de l'équation

Tout d'abord, la méthode que vous ne prend pas en compte le fait que n'est pas différenciable en continu. En fait, vous pouvez utiliser les résultats de Rossler pour montrer que l'extension des méthodes RK normales comme vous l'avez suggéré entraînera des méthodes convergentes, mais elles n'auront qu'un ordre fort de 0,5. La raison en est qu'ils ont été dérivés en utilisant le calcul avec étant différentiable et ayant une série de Taylor. Le mouvement brownien n'est pas différentiable, et a à la place une continuité de titulaire de comme $X_t$ $X_t$ $\alpha < 0.5$

Cependant, comme dans la théorie des perturbations, les processus qui ne sont pas assez réguliers ne sont pas extensibles en termes d'une série de Taylor, mais avec la régularité de Holder ils peuvent être étendus en termes d'une série de Puiseux avec des termes de , c'est-à-dire pour le mouvement brownien est une extension de la notion de série Taylor qui est développée en termes de quelque chose comme les dérivés . Comme dans le calcul régulier, le premier terme est le "terme linéaire", c'est-à-dire changer en et en $\alpha$ $\alpha$ $\frac{1}{2}$ $dt$ $\Delta t$ $dW_t$ $N(0,dt)$ et vous obtenez quelque chose de bien. C'est pourquoi les méthodes, y compris des choses comme Euler-Maruyama, convergent avec un ordre fort de 0,5: elles obtiennent le premier terme de la série Taylor correct. Cependant, les termes d'ordre supérieur doivent avoir les corrections pour le fait que $X_t$ n'est pas différenciable en continu, c'est pourquoi les méthodes normales ne le font pas.

Corrélations instantanées et intégrales itérées

C'est une explication heuristique rapide, mais il y a un peu plus. Regardons quelques autres détails. Une série de Taylor n'est pas seulement l'expansion en termes de dérivés, mais elle peut également être considérée comme le nombre de termes d'ordre supérieur à intégrer. s'intègre une fois. Mais si vous ajoutez le terme , pour obtenir les bonnes unités, vous devez faire des doubles intégrales. $X_t = X_0 + \Delta t f(t,X_t)$ $dt^2$ $dt^2$ est facile à intégrer deux fois, mais qu'est-ce que $dW_t^i dW_t^j$ ? Ce sont les corrélations instantanées entre les mouvements browniens. Vous devez le savoir pour calculer la double intégrale. Si vous ne regardez que les moyennes, vous pouvez les éliminer. Mais dans toute trajectoire, il existe des corrélations entre les différents mouvements browniens d'un système d'équations différentielles. En supposant qu'il n'y ait pas de corrélation entre les mouvements browniens est une autre façon de caractériser l'extension Maruyama des méthodes déterministes, mais pour obtenir le terme suivant de la série (le terme 1.0), vous devez bien faire les choses. La correction de Milstein ajoute précisément ces termes de corrélation. Lorsque le bruit est diagonal, cela équivaut à comprendre qu'il n'y a pas de corrélation sauf avec lui-même, mais la corrélation avec soi-même n'est que la variance qui est vs $dt$ , et donc il doit y avoir une correction de $dW_t^2$ $dt$ , c'est-à-dire . Quand il y a du bruit non diagonal, ces doubles intégrales doivent être approximées de sorte que les corrélations instantanées des mouvements browniens soient prises en compte, et l'approximation courante ici est l'approximation de Wiktorsson qui est alors ce qui rend les simulations de bruit non diagonales si compliquées (puisqu'il n'y a pas de solution analytique même aux doubles intégrales). $dW^2 - dt$

Effet moyen de diffusion

Mais cela nous amène à une autre façon de penser le problème. En pensant à l'expansion en termes de moments, dans un sens heuristique, le terme de premier ordre, le terme d'ordre fort 1.0 ou , doit obtenir les mouvements moyens corrects, non? Voici une question: quelle est la dérivée de dans le temps? La réponse la plus simple serait de définir la dérivée de manière normale: $\mathcal{O}(\Delta t)$ $g$

mais ce n'est pas vraiment correct lorsque l'on place dans le contexte du SDE. Si nous pensons à la dérivée de en termes de changement de , elle ne pointe pas toujours en moyenne dans la même direction car elle est toujours multipliée par ce facteur aléatoire . La question est: quelle est la taille moyenne de ce ? La diffusion a des changements en moyenne à l'échelle de , donc en réalité l'affect de ressemble plus à $g$ $g$ $X_t$ $dW_t$ $dW_t$ $\sqrt{\Delta t}$ $g(t,X_t)$

\frac{g (t + Δ t, X_{t + Δ t}) - g (t, X_{t})}{\sqrt{Δ t}}

$\frac{g(t+\Delta t,X_{t+\Delta t}) - g(t,X_t)}{\sqrt{\Delta t}}$

Vous pouvez montrer plus rigoureusement que la dérivée numérique devrait être la suivante avec comme "prédicteur en avant dans le temps". $X_{t + \Delta t} = X_t + g(t,X_t)\sqrt{\Delta t}$

Mais intuitivement, cela ne fait que comprendre l'effet moyen que a sur la trajectoire de : environ . Dans une méthode Runge-Kutta, une étape interne à l'instant est supposée être une approximation de la valeur de , mais même à partir de cet argument heuristique physique rapide sur la diffusion, nous voyons que l'extension facile de une méthode Runge-Kutta est déjà fausse en moyenne: elle est fausse d'environ $g$ $X_t$ $g(t,X_t)\sqrt{\Delta t}$ $c_i$ $X_{t + c_i\Delta t}$ $g(t,X_t)\sqrt{c_i \Delta t}$ ce qui est une autre façon d'expliquer pourquoi il est au plus fort de l'ordre 0,5 (il est surprenant que les méthodes fonctionnent toujours! Mais vous pouvez attribuer cela au fait que la somme des étapes dans une méthode RK doit être 1, et donc cette erreur est quelque peu annulée en dehors). Fait intéressant, cet argument heuristique va assez loin, car les méthodes stochastiques de Runge-Kutta d'ordre supérieur comme celles dues à Rossler ont des corrections qui sont précisément liées à . $g(t,X_t)\sqrt{\Delta t}$

Conclusion

Ce sont 3 façons heuristiques différentes de comprendre pourquoi les ordres plus élevés doivent impliquer un calcul stochastique. Les ordres plus élevés doivent prendre en compte le fait que la régularité de Holder est 1/2 et donc il y a des termes supplémentaires dans la série Taylor, ils doivent prendre en compte les corrélations instantanées, et ils doivent au moins prendre en compte les effets moyens du terme de diffusion . Sinon, ils sont voués à ne pas être corrects pour , et à la place ne satisfont que l '"approximation linéaire" du premier terme et reçoivent . $\mathcal{O}(\Delta t)$ $\mathcal{O}(\sqrt{\Delta t})$

Bien sûr, dans certaines circonstances, il existe des moyens de trouver des généralisations appropriées qui donnent des méthodes d'ordre supérieur, mais je vais laisser cela comme un fil pendant, car c'est un point d'un document que je soumettrai bientôt. J'espère que cela t'aides.

— Chris Rackauckas
source