J'utilise actuellement Beautiful Soup pour analyser un fichier HTML et appeler get_text()
, mais il me semble qu'il me reste beaucoup de \ xa0 Unicode représentant des espaces. Existe-t-il un moyen efficace de les supprimer tous en Python 2.7 et de les transformer en espaces? Je suppose que la question la plus générale serait: existe-t-il un moyen de supprimer le formatage Unicode?
J'ai essayé d'utiliser line = line.replace(u'\xa0',' ')
:, comme suggéré par un autre thread, mais cela a changé les \ xa0 en u, donc maintenant j'ai des "u" partout à la place. ):
EDIT: Le problème semble être résolu par str.replace(u'\xa0', ' ').encode('utf-8')
, mais le simple fait de s'en .encode('utf-8')
passer replace()
semble le faire cracher des caractères encore plus étranges, \ xc2 par exemple. Quelqu'un peut-il expliquer cela?
u''
s au lieu de ''
s. :-)
u' '
remplacement, pas le ' '
. La chaîne d'origine est-elle unicode?