J'ai des problèmes avec les caractères unicode du texte récupéré à partir de différentes pages Web (sur différents sites). J'utilise BeautifulSoup. Le problème est que l'erreur n'est pas toujours reproductible; il fonctionne parfois avec certaines pages, et parfois, il abat en lançant a UnicodeEncodeError. J'ai essayé à peu près tout …
J'ai du mal à analyser les éléments HTML avec l'attribut "class" à l'aide de Beautifulsoup. Le code ressemble à ceci soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div J'obtiens une erreur sur la même ligne "après" la fin du script. File "./beautifulcoding.py", …
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Les sorties ci-dessus sur mon terminal. Je suis sous Mac OS 10.7.x. J'ai Python 2.7.1 et j'ai …
J'essaie de gratter un site Web, mais cela me donne une erreur. J'utilise le code suivant: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Et j'obtiens l'erreur suivante: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters …
TypeError: un objet de type octets est requis, pas 'str' obtenir l'erreur ci-dessus lors de l'exécution du code python ci-dessous pour enregistrer les données de la table HTML dans le fichier Csv. ne sais pas comment se débarrasser de rideup.pls aidez-moi. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' …
soup.find("tagName", { "id" : "articlebody" }) Pourquoi cela ne renvoie PAS les <div id="articlebody"> ... </div>balises et les éléments intermédiaires? Il ne renvoie rien. Et je sais pertinemment que ça existe parce que je le regarde depuis soup.prettify() soup.find("div", { "id" : "articlebody" }) ne fonctionne pas non plus. ( …
Je travaille en Python et j'utilise Flask. Lorsque j'exécute mon fichier Python principal sur mon ordinateur, cela fonctionne parfaitement, mais lorsque j'active venv et que j'exécute le fichier Flask Python dans le terminal, cela indique que mon fichier Python principal a "Aucun module nommé bs4". Tout commentaire ou conseil est …
Je souhaite créer un site Web qui montre la comparaison entre le prix des produits amazon et e-bay. Lequel de ceux-ci fonctionnera mieux et pourquoi? Je connais un peu BeautifulSoup mais pas tellement le robot Scrapy .
Fondamentalement, je souhaite utiliser BeautifulSoup pour saisir strictement le texte visible sur une page Web. Par exemple, cette page Web est mon cas de test. Et je veux principalement obtenir le corps du texte (article) et peut-être même quelques noms d'onglets ici et là. J'ai essayé la suggestion dans cette …
Je veux obtenir toutes les <a>balises qui sont des enfants de <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Je sais comment trouver un élément avec une classe particulière comme celle-ci: soup.find("li", { "class" : "test" }) Mais je ne sais pas comment trouver tous ceux …
J'essaye d'extraire le contenu d'un seul attribut de «valeur» dans une balise «d'entrée» spécifique sur une page Web. J'utilise le code suivant: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) J'obtiens un …
J'utilise BeautifulSoup pour gratter une URL et j'ai eu le code suivant import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Maintenant, dans le code ci-dessus, nous pouvons utiliser findAllpour obtenir des balises et des …
Je veux imprimer une valeur d'attribut en fonction de son nom, prenons par exemple <META NAME="City" content="Austin"> Je veux faire quelque chose comme ça soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Le code ci-dessus donne …
Les balises de script et tout leur contenu peuvent-ils être supprimés du HTML avec BeautifulSoup, ou dois-je utiliser des expressions régulières ou autre chose?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.