J'écris un robot d'exploration en Ruby (1.9) qui consomme beaucoup de HTML provenant de nombreux sites aléatoires.
En essayant d'extraire des liens, j'ai décidé d'utiliser simplement à la .scan(/href="(.*?)"/i)
place de nokogiri / hpricot (accélération majeure). Le problème est que je reçois maintenant beaucoup d' invalid byte sequence in UTF-8
erreurs " ".
D'après ce que j'ai compris, la net/http
bibliothèque n'a pas d'options spécifiques d'encodage et les éléments qui y sont fournis ne sont fondamentalement pas correctement étiquetés.
Quelle serait la meilleure façon de travailler réellement avec ces données entrantes? J'ai essayé .encode
avec l'ensemble d'options de remplacement et non valide, mais sans succès jusqu'à présent ...
'U*'
annuler 'C*'
?