Questions marquées «beautifulsoup»

Beautiful Soup est un package Python permettant d'analyser HTML / XML. La dernière version de ce package est la version 4, importée en tant que bs4.

29
UnicodeEncodeError: le codec 'ascii' ne peut pas coder le caractère u '\ xa0' en position 20: l'ordinal n'est pas dans la plage (128)
J'ai des problèmes avec les caractères unicode du texte récupéré à partir de différentes pages Web (sur différents sites). J'utilise BeautifulSoup. Le problème est que l'erreur n'est pas toujours reproductible; il fonctionne parfois avec certaines pages, et parfois, il abat en lançant a UnicodeEncodeError. J'ai essayé à peu près tout …

16
Comment trouver des éléments par classe
J'ai du mal à analyser les éléments HTML avec l'attribut "class" à l'aide de Beautifulsoup. Le code ressemble à ceci soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div J'obtiens une erreur sur la même ligne "après" la fin du script. File "./beautifulcoding.py", …

12
bs4.FeatureNotFound: Impossible de trouver un générateur d'arborescence avec les fonctionnalités que vous avez demandées: lxml. Avez-vous besoin d'installer une bibliothèque d'analyseur?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Les sorties ci-dessus sur mon terminal. Je suis sous Mac OS 10.7.x. J'ai Python 2.7.1 et j'ai …

6
UnicodeEncodeError: le codec 'charmap' ne peut pas coder les caractères
J'essaie de gratter un site Web, mais cela me donne une erreur. J'utilise le code suivant: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Et j'obtiens l'erreur suivante: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters …


11
Belle soupe et extraction d'un div et de son contenu par ID
soup.find("tagName", { "id" : "articlebody" }) Pourquoi cela ne renvoie PAS les <div id="articlebody"> ... </div>balises et les éléments intermédiaires? Il ne renvoie rien. Et je sais pertinemment que ça existe parce que je le regarde depuis soup.prettify() soup.find("div", { "id" : "articlebody" }) ne fonctionne pas non plus. ( …


16
ImportError: aucun module nommé bs4 (BeautifulSoup)
Je travaille en Python et j'utilise Flask. Lorsque j'exécute mon fichier Python principal sur mon ordinateur, cela fonctionne parfaitement, mais lorsque j'active venv et que j'exécute le fichier Flask Python dans le terminal, cela indique que mon fichier Python principal a "Aucun module nommé bs4". Tout commentaire ou conseil est …



6
Comment trouver des enfants de nœuds à l'aide de BeautifulSoup
Je veux obtenir toutes les <a>balises qui sont des enfants de <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Je sais comment trouver un élément avec une classe particulière comme celle-ci: soup.find("li", { "class" : "test" }) Mais je ne sais pas comment trouver tous ceux …

6
Extraire une valeur d'attribut avec beautifulsoup
J'essaye d'extraire le contenu d'un seul attribut de «valeur» dans une balise «d'entrée» spécifique sur une page Web. J'utilise le code suivant: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) J'obtiens un …

9
pouvons-nous utiliser xpath avec BeautifulSoup?
J'utilise BeautifulSoup pour gratter une URL et j'ai eu le code suivant import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Maintenant, dans le code ci-dessus, nous pouvons utiliser findAllpour obtenir des balises et des …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.