Afin d'expliquer pourquoi j'ai ces questions stupides que vous trouverez ci-dessous, je dois dire que je suis plus une personne qui apprend par machine. Pendant que je travaillais sur des problèmes de bioinformatique, tout allait bien. Quand j'ai entendu des mots comme "régression" ou "kurtosis and skewness", dans le premier cas j'ai juste souri, dans le deuxième cas j'ai juste fait un geste maladroit avec mes épaules en essayant de dire quelque chose comme: "oui, j'en ai entendu parler, et même savoir comment le calculer, mais pourquoi sur Terre quelqu'un en aura-t-il besoin? ".
La situation a radicalement changé quand il y a un an, juste pour le plaisir, j'ai essayé d'appliquer mes connaissances en apprentissage automatique à certaines séries chronologiques financières.
J'ai commencé avec l'idée de faire un réseau bayésien à partir de signaux fournis par des "indicateurs" "techniques" "d'analyse". L'idée a échoué. De plus, il était quelque peu agréable de trouver au moins deux sujets avec une idée similaire sur ce site (qui utilisait des réseaux de neurones au lieu de bayésiens).
Ensuite, après beaucoup d'efforts, j'ai été en mesure de construire un mélange de kNN et de régression symbolique que j'ai formé sur des données d'une heure de 2000 à 2006 et testé sur des données de 2007. Ce modèle a en fait donné un grand bénéfice. Mais ensuite, lorsque je l'ai appliqué aux dernières données, j'ai réalisé que sa précision avait considérablement chuté en raison de la crise économique et que cela ne fonctionnait plus parce que quelque chose avait changé sur le marché et j'avais besoin de plus de nouvelles données, que je ne peux obtenir qu'en 2-5. années.
Eh bien, beaucoup de choses ont été essayées plus tard et si tout cela a commencé comme "juste pour le plaisir", ce n'était plus amusant. Jusqu'à ce que je trouve des conférences en ligne de Ruey S. Tsay sur ARIMA, GARCH, TAR et toutes les autres choses complètement nouvelles pour moi.
En gros, j'ai trouvé un tout nouveau monde et je l'apprécie vraiment. À l'heure actuelle, j'ai pu installer mon premier modèle ARIMA, puis l'ajusté pour réduire deux fois l'erreur efficace en regardant ACF, PACF, en jouant avec la saisonnalité, etc.
Eh bien, le plaisir est de retour, j'en ai eu beaucoup et j'espère en avoir encore plus. Mais j'avais quelques questions et j'ai trouvé ce super site. Lisez presque tous les sujets sur ARIMA et d'autres techniques connexes ici, ainsi que de nombreux autres sujets généraux liés à des approches similaires. Pour sûr, vous en lirez plus. Je pense toujours dans un état d'esprit de l'approche d'apprentissage automatique, ce qui conduit à beaucoup de questions stupides, pour la plupart desquelles je trouve des réponses sur ce site.
Donc, après cette longue introduction, voici mes questions stupides restantes:
Bien que l'approche d'apprentissage automatique se préoccupe davantage de trouver un «modèle» dans les données, je le trouve en contradiction avec les modèles statistiques pour les séries temporelles financières qui utilisent largement la théorie de la marche aléatoire (ce qui rend l'existence des modèles au moins discutable). Je me rends compte que sa description très naïve et incorrecte, mais ce que j'essaie de dire, c'est que la plupart des techniques d'apprentissage automatique sont en contradiction conceptuelle avec l'approche statistique du problème. Je ne dis pas qu'une approche est meilleure, je dis simplement qu'il y a des contradictions. Est-ce exact et quelle est l'ampleur de cette contradiction?
J'ai vraiment aimé la description et l'idée du modèle TAR qui pour moi ressemble au mariage de l'apprentissage automatique avec les statistiques. C'est un modèle que je veux essayer après avoir ajouté GARCH à mon ARIMA. Mais j'ai quelques questions à ce sujet:
TAR utilise certainement des approches statistiques et d'apprentissage automatique. Donc, en gardant à l'esprit ma première question, n'y a-t-il pas une erreur en essayant de trouver un modèle pour un ensemble de modèles, qui sont essentiellement construits sur une théorie qui exclut les modèles? Ou est-ce juste une idée de la façon de combiner deux modèles qui étudient différents aspects d'un même problème, en un modèle encore plus puissant?
Lorsque vous effectuez une recherche par mot-clé "ARIMA" sur ce site, vous accédez à 15 pages de sujets, tandis que pour TAR il n'y en a qu'un. Aussi pourquoi les gens se sont-ils arrêtés juste en appliquant la RA? Pourquoi ne pas élargir cette idée pour des modèles plus complexes (comme ARIMA)? Est-ce parce que TAR n'a pas donné d'amélioration attendue par rapport à AR?
Je sais que les méthodes MCMC et d'autres choses d'apprentissage automatique sont actuellement mélangées avec des modèles statistiques. Je suis personnellement aussi un grand fan des modèles de Markov cachés et des champs aléatoires conditionnels. Connaissez-vous des mélanges de ces méthodes avec des modèles statistiques?