Je voudrais extraire le texte d'un fichier HTML en utilisant Python. Je veux essentiellement la même sortie que j'obtiendrais si je copiais le texte à partir d'un navigateur et le collais dans le bloc-notes.
J'aimerais quelque chose de plus robuste que d'utiliser des expressions régulières qui peuvent échouer sur du HTML mal formé. J'ai vu beaucoup de gens recommander Beautiful Soup, mais j'ai eu quelques problèmes à l'utiliser. D'une part, il a récupéré du texte indésirable, comme une source JavaScript. En outre, il n'a pas interprété les entités HTML. Par exemple, je m'attendrais à & # 39; dans la source HTML à convertir en apostrophe dans le texte, comme si j'avais collé le contenu du navigateur dans le bloc-notes.
La mise à jour html2text
semble prometteuse. Il gère correctement les entités HTML et ignore JavaScript. Cependant, il ne produit pas exactement du texte brut; il produit une démarque qui devrait ensuite être transformée en texte brut. Il est livré sans exemples ni documentation, mais le code semble propre.
Questions connexes: