我在使用 Beautifulsoup 时遇到了一些困难。
你可以在这里找到 html -> http://pastebin.com/Nr1k0dcM
之后我只是运行一个soup = BeautifulSoup(html)
print soup.prettify()
html的结果应该没有任何区别,但我只得到这个> http://pastebin.com/Y6DmEj40
我真的不明白这里发生了什么......
编辑:
这是我正在报废的网址之一,例如: http: //fantasy.premierleague.com/entry/38861/event-history/8/
我只是将 html 从 to 报废,否则我会收到以下错误:
HTMLParser.HTMLParseError: bad end tag: u"</scri'+'pt>", at line 89, column 222
所以我现在正在做的是以下
response = requests.get(url, headers=headers)
html = response.text
tablestart = html.find('<!-- pitch view -->') + 19
tableend = html.find('<!-- end ismPitch -->')
html = html[tablestart:tableend]
soup = BeautifulSoup(html)