Je suis à la recherche de techniques robustes pour supprimer les valeurs aberrantes et les erreurs (quelle qu'en soit la cause) des données de séries chronologiques financières (c.-à-d. Tickdata).
Les données financières chronologiques tick-by-tick sont très compliquées. Il contient d'énormes intervalles (temporels) lorsque l'échange est fermé et fait d'énormes sauts lorsque l'échange s'ouvre à nouveau. Lorsque la bourse est ouverte, toutes sortes de facteurs introduisent des transactions à des niveaux de prix incorrects (ils ne se sont pas produits) et / ou non représentatifs du marché (un pic en raison d'une offre ou d'une demande de prix incorrectement entrée par exemple). Cet article de tickdata.com (PDF) décrit bien le problème, mais propose peu de solutions concrètes.
La plupart des documents que je peux trouver en ligne qui mentionnent ce problème l'ignorent (les données sont supposées filtrées) ou incluent le filtrage dans le cadre d'un énorme modèle de trading qui masque toutes les étapes de filtrage utiles.
Quelqu'un est-il au courant d'un travail plus approfondi dans ce domaine?
Mise à jour: cette question semble similaire en surface mais:
- Les séries chronologiques financières sont (au moins au niveau du tick) non périodiques.
- L'effet d'ouverture est un gros problème car vous ne pouvez pas simplement utiliser les données du dernier jour comme initialisation même si vous le souhaitez vraiment (car sinon vous n'avez rien). Des événements externes pourraient faire en sorte que l'ouverture de la nouvelle journée diffère considérablement à la fois en niveau absolu et en volatilité par rapport à la veille.
- Fréquence extrêmement irrégulière des données entrantes. Près de l'ouverture et de la fermeture de la journée, la quantité de points de données / seconde peut être 10 fois supérieure à la moyenne de la journée. L'autre question concerne les données régulièrement échantillonnées.
- Les «valeurs aberrantes» dans les données financières présentent des modèles spécifiques qui pourraient être détectés avec des techniques spécifiques non applicables dans d'autres domaines et je suis en partie à la recherche de ces techniques spécifiques.
- Dans des cas plus extrêmes (par exemple le crash flash), les valeurs aberrantes peuvent représenter plus de 75% des données sur des intervalles plus longs (> 10 minutes). De plus, la fréquence (élevée) des données entrantes contient des informations sur l'aspect aberrant de la situation.