J'utilise actuellement Beautiful Soup pour analyser un fichier HTML et appeler get_text(), mais il me semble qu'il me reste beaucoup de \ xa0 Unicode représentant des espaces. Existe-t-il un moyen efficace de les supprimer tous en Python 2.7 et de les transformer en espaces? Je suppose que la question la plus générale serait: existe-t-il un moyen de supprimer le formatage Unicode?
J'ai essayé d'utiliser line = line.replace(u'\xa0',' '):, comme suggéré par un autre thread, mais cela a changé les \ xa0 en u, donc maintenant j'ai des "u" partout à la place. ):
EDIT: Le problème semble être résolu par str.replace(u'\xa0', ' ').encode('utf-8'), mais le simple fait de s'en .encode('utf-8')passer replace()semble le faire cracher des caractères encore plus étranges, \ xc2 par exemple. Quelqu'un peut-il expliquer cela?
u''s au lieu de ''s. :-)
u' 'remplacement, pas le ' '. La chaîne d'origine est-elle unicode?