Récemment, j'ai appris que l'utilisation d'une expression régulière pour analyser le code HTML d'un site Web afin d'obtenir les données dont vous avez besoin n'est pas la meilleure solution.
Ma question est donc simple: quel est donc le moyen le meilleur / le plus efficace et généralement stable pour obtenir ces données?
Je dois noter que:
- Il n'y a pas d'API
- Il n'y a aucune autre source d'où je peux obtenir les données (pas de bases de données, de flux et autres)
- Il n'y a pas d'accès aux fichiers source. (Données de sites Web publics)
- Disons que les données sont du texte normal, affiché dans un tableau dans une page html
J'utilise actuellement python pour mon projet mais une solution / astuces indépendantes du langage serait bien.
Comme une question secondaire: comment vous y prendriez-vous lorsque la page Web est construite par des appels Ajax?
ÉDITER:
Dans le cas de l'analyse HTML, je sais qu'il n'y a aucun moyen stable réel d'obtenir les données. Dès que la page change, votre analyseur est terminé. Ce que je veux dire avec stable dans ce cas est: un moyen efficace d'analyser la page, qui me donne toujours les mêmes résultats (pour le même ensemble de données évidemment) à condition que la page ne change pas .