Permettez-moi d'ajouter mes 2 ¢, c'est mon travail d'obtenir des données bonnes et propres pour un fonds spéculatif, j'ai vu pas mal de flux de données et de fournisseurs de données historiques. Il s'agit principalement des données sur les actions américaines.
Pour commencer, si vous avez de l'argent, ne vous embêtez pas à télécharger des données de Yahoo, obtenez les données de fin de journée directement à partir des données CSI , c'est là que Yahoo obtient leurs données EOD ainsi que l'AFAIK. Ils ont une API où vous pouvez extraire les données dans le format de votre choix. Je pense que l'abonnement annuel pour les données est de quelques dollars 100 $.
Le principal problème avec le téléchargement de données à partir d'un service gratuit est que vous n'obtenez que des stocks qui existent encore, c'est ce qu'on appelle le biais de survie et peut vous donner de mauvais résultats si vous regardez de nombreux stocks, car vous n'incluerez que ceux qui l'ont fait loin et pas ceux qui ont été radiés.
Pour jouer avec certaines données intrajournalières que j'examinerais dans IQFeed , elles fournissent plusieurs API pour extraire des données historiques, bien qu'elles soient principalement une tenue pour les flux en temps réel. Mais ici, il existe plusieurs options, certains courtiers fournissent même des téléchargements de données historiques via leurs API, alors choisissez simplement votre poison.
MAIS généralement toutes ces données ne sont pas très propres, une fois que vous aurez vraiment recommencé les tests, vous verrez que certains stocks manquent ou apparaissent sous la forme de deux symboles différents, ou que les répartitions des stocks ne sont pas correctement prises en compte, etc. Et puis vous vous rendez compte que l'historique les données sur les dividendes sont également nécessaires et vous commencez donc à tourner en rond, à assembler les données à partir de 100 sources de données différentes, etc. Donc, pour commencer, un flux de données "à prix réduit" suffira, mais dès que vous exécutez des backtests plus complets, vous pouvez rencontrer des problèmes en fonction de ce que vous faites. Si vous regardez, disons, les actions du S&P 500, ce ne sera pas tellement un problème et un flux intrajournalier "bon marché" fera l'affaire.
Ce que vous ne trouverez pas, ce sont des données intrajournalières gratuites. Je veux dire que vous pourriez trouver des exemples, je suis sûr qu'il y a quelque part 5 ans de données de tick MSFT flottant, mais cela ne vous mènera pas très loin.
Ensuite, si vous avez besoin du vrai matériel (carnet de commandes de niveau II, tous les ticks comme ils se sont produits dans tous les échanges), une option "abordable", mais excellente est Nanex . Ils vous enverront en fait un lecteur avec des téraoctets de données. Si je me souviens bien, c'est environ 3k-4K $ par an de données. Mais croyez-moi, une fois que vous comprenez à quel point il est difficile d'obtenir de bonnes données intrajournalières, vous ne penserez pas que cela représente beaucoup d'argent.
Il n'est pas difficile de vous décourager, mais d'obtenir de bonnes données, si difficile en fait que de nombreux hedge funds et banques dépensent des centaines de milliers de dollars par mois pour obtenir des données fiables. Encore une fois, vous pouvez commencer quelque part et ensuite partir de là, mais il est bon de le voir un peu en contexte.
Edit: La réponse ci-dessus est de ma propre expérience. Cet article de Caltech sur les flux de données disponibles donnera plus d'informations, et recommande particulièrement QuantQuote .