Plusieurs questions sur les modèles statistiques de séries temporelles financières de «personne apprenant par machine»

Afin d'expliquer pourquoi j'ai ces questions stupides que vous trouverez ci-dessous, je dois dire que je suis plus une personne qui apprend par machine. Pendant que je travaillais sur des problèmes de bioinformatique, tout allait bien. Quand j'ai entendu des mots comme "régression" ou "kurtosis and skewness", dans le premier cas j'ai juste souri, dans le deuxième cas j'ai juste fait un geste maladroit avec mes épaules en essayant de dire quelque chose comme: "oui, j'en ai entendu parler, et même savoir comment le calculer, mais pourquoi sur Terre quelqu'un en aura-t-il besoin? ".

La situation a radicalement changé quand il y a un an, juste pour le plaisir, j'ai essayé d'appliquer mes connaissances en apprentissage automatique à certaines séries chronologiques financières.

J'ai commencé avec l'idée de faire un réseau bayésien à partir de signaux fournis par des "indicateurs" "techniques" "d'analyse". L'idée a échoué. De plus, il était quelque peu agréable de trouver au moins deux sujets avec une idée similaire sur ce site (qui utilisait des réseaux de neurones au lieu de bayésiens).

Ensuite, après beaucoup d'efforts, j'ai été en mesure de construire un mélange de kNN et de régression symbolique que j'ai formé sur des données d'une heure de 2000 à 2006 et testé sur des données de 2007. Ce modèle a en fait donné un grand bénéfice. Mais ensuite, lorsque je l'ai appliqué aux dernières données, j'ai réalisé que sa précision avait considérablement chuté en raison de la crise économique et que cela ne fonctionnait plus parce que quelque chose avait changé sur le marché et j'avais besoin de plus de nouvelles données, que je ne peux obtenir qu'en 2-5. années.

Eh bien, beaucoup de choses ont été essayées plus tard et si tout cela a commencé comme "juste pour le plaisir", ce n'était plus amusant. Jusqu'à ce que je trouve des conférences en ligne de Ruey S. Tsay sur ARIMA, GARCH, TAR et toutes les autres choses complètement nouvelles pour moi.

En gros, j'ai trouvé un tout nouveau monde et je l'apprécie vraiment. À l'heure actuelle, j'ai pu installer mon premier modèle ARIMA, puis l'ajusté pour réduire deux fois l'erreur efficace en regardant ACF, PACF, en jouant avec la saisonnalité, etc.

Eh bien, le plaisir est de retour, j'en ai eu beaucoup et j'espère en avoir encore plus. Mais j'avais quelques questions et j'ai trouvé ce super site. Lisez presque tous les sujets sur ARIMA et d'autres techniques connexes ici, ainsi que de nombreux autres sujets généraux liés à des approches similaires. Pour sûr, vous en lirez plus. Je pense toujours dans un état d'esprit de l'approche d'apprentissage automatique, ce qui conduit à beaucoup de questions stupides, pour la plupart desquelles je trouve des réponses sur ce site.

Donc, après cette longue introduction, voici mes questions stupides restantes:

Bien que l'approche d'apprentissage automatique se préoccupe davantage de trouver un «modèle» dans les données, je le trouve en contradiction avec les modèles statistiques pour les séries temporelles financières qui utilisent largement la théorie de la marche aléatoire (ce qui rend l'existence des modèles au moins discutable). Je me rends compte que sa description très naïve et incorrecte, mais ce que j'essaie de dire, c'est que la plupart des techniques d'apprentissage automatique sont en contradiction conceptuelle avec l'approche statistique du problème. Je ne dis pas qu'une approche est meilleure, je dis simplement qu'il y a des contradictions. Est-ce exact et quelle est l'ampleur de cette contradiction?
J'ai vraiment aimé la description et l'idée du modèle TAR qui pour moi ressemble au mariage de l'apprentissage automatique avec les statistiques. C'est un modèle que je veux essayer après avoir ajouté GARCH à mon ARIMA. Mais j'ai quelques questions à ce sujet:
- TAR utilise certainement des approches statistiques et d'apprentissage automatique. Donc, en gardant à l'esprit ma première question, n'y a-t-il pas une erreur en essayant de trouver un modèle pour un ensemble de modèles, qui sont essentiellement construits sur une théorie qui exclut les modèles? Ou est-ce juste une idée de la façon de combiner deux modèles qui étudient différents aspects d'un même problème, en un modèle encore plus puissant?
- Lorsque vous effectuez une recherche par mot-clé "ARIMA" sur ce site, vous accédez à 15 pages de sujets, tandis que pour TAR il n'y en a qu'un. Aussi pourquoi les gens se sont-ils arrêtés juste en appliquant la RA? Pourquoi ne pas élargir cette idée pour des modèles plus complexes (comme ARIMA)? Est-ce parce que TAR n'a pas donné d'amélioration attendue par rapport à AR?
Je sais que les méthodes MCMC et d'autres choses d'apprentissage automatique sont actuellement mélangées avec des modèles statistiques. Je suis personnellement aussi un grand fan des modèles de Markov cachés et des champs aléatoires conditionnels. Connaissez-vous des mélanges de ces méthodes avec des modèles statistiques?

machine-learning arima finance

— GrayR
source

Notez que ARIMA est généralement plus une question de représentation plutôt qu'un modèle différent de AR. Habituellement, vous pouvez réorganiser un modèle ARIMA en un modèle AR. Je pense que vous rencontrez des problèmes d'estimation si vous ne le pouvez pas (je suis sûr que les modèles de séries temporelles non inversibles sont difficiles à ajuster). De plus, une grande partie de vos différences concernent davantage la terminologie que les modèles. Un champ aléatoire conditionnel est essentiellement un modèle mixte. Les modèles de Markov cachés sont très similaires aux filtres de Kalman, etc., etc.

— probabilislogic

@probabilityislogic merci pour votre commentaire. Oui, je me rends compte qu'il y a beaucoup en commun. Il est très tentant pour moi de dire que toute l'approche statistique est la même que l'apprentissage automatique, tout comme certaines nouvelles méthodes. J'ai simplement peur de manquer quelque chose d'important dans un tel cas, donc je me concentre sur les différences, pour en savoir plus sur les façons correctes et erronées d'appliquer ces modèles. Il est facile pour moi de voir la similitude, ce sont les différences que j'ai peur de manquer.

— GrayR

Concernant la question 1, les séries chronologiques ne traitent pas principalement des marches aléatoires. Les séries chronologiques stationnaires ont une structure de corrélation qui est modélisée par exemple dans des modèles ARMA. L'analyse des séries chronologiques examine également les effets et tendances périodiques (nous appelons ces séries chronologiques non stationnaires). La recherche de modèles dans les données n'est pas incompatible avec les statistiques tant qu'il est reconnu qu'il existe un modèle + une composante aléatoire et que la composante aléatoire doit être prise en compte dans l'analyse. En ce qui concerne la question 2, je ne vois pas pourquoi vous appelez TAR un mélange d'apprentissage automatique et de statistiques. Je le vois comme un modèle de série chronologique plus compliqué qui comprend un paramètre de seuil et 2 modèles AR. Je suppose que je ne vois pas non plus de grande distinction entre l'apprentissage automatique et les statistiques. Je considère l'apprentissage automatique comme faisant partie de la reconnaissance / classification statistique des formes, qui relève du domaine de l'analyse multivariée. Il me semble que le TAR pourrait facilement être étendu à la fixation d'un seuil sur un modèle ARMA. Je ne sais pas s'il a été essayé ou pourquoi il n'a peut-être pas été développé. Peut-être que quelqu'un qui travaille avec ce type de modèles de séries chronologiques peut répondre à cette question.

— Michael R. Chernick
source