J'ai récemment appris Python et je me suis lancé dans la construction d'un web-grattoir. Il n'y a rien d'extraordinaire du tout; son seul objectif est de récupérer les données d'un site de paris et de les mettre dans Excel.
La plupart des problèmes peuvent être résolus et j'ai un bon petit désordre. Cependant, je rencontre un énorme obstacle sur un problème. Si un site charge une table de chevaux et répertorie les prix actuels des paris, cette information ne se trouve dans aucun fichier source. L'indice est que ces données sont parfois en direct, les chiffres étant évidemment mis à jour à partir d'un serveur distant. Le HTML sur mon PC a simplement un trou où leurs serveurs transmettent toutes les données intéressantes dont j'ai besoin.
Maintenant, mon expérience avec le contenu Web dynamique est faible, donc cette chose est quelque chose que j'ai du mal à comprendre.
Je pense que Java ou Javascript est une clé, cela apparaît souvent.
Le grattoir est simplement un moteur de comparaison de cotes. Certains sites ont des API mais j'en ai besoin pour ceux qui n'en ont pas. J'utilise la bibliothèque scrapy avec Python 2.7
Je m'excuse si cette question est trop ouverte. En bref, ma question est la suivante: comment le scrapy peut-il être utilisé pour gratter ces données dynamiques afin que je puisse les utiliser? Pour que je puisse récupérer ces données de cotes de paris en temps réel?
Firefox
extensions comme httpFox
ou liveHttpHeaders
et chargez une page qui utilise la requête ajax. Scrapy n'identifie pas automatiquement les requêtes ajax, vous devez rechercher manuellement l'URL ajax appropriée, puis faire la demande avec cela.