我正在下载一个带有 urllib2 的页面并将其加载到 BeautifulSoup 中:
from bs4 import BeautifulSoup as Soup
import urllib2
baseHTML = 'http://forums.macrumors.com/'
baseForum = 'forumdisplay.php?f=109'
forumHTML = urllib2.urlopen(baseHTML+baseForum).read()
page = Soup(forumHTML)
print forumHTML
print page
打印时forumHTML
,一切正常,返回的 html 完全没问题。
但是,在打印时page
,此时 HTML 会出现乱码:
<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallf">o n t " s t y l e = " w h i t e - s p a c e
如您所见,BeautifulSoup>
出于某种未知原因在错误的位置添加了一个。这是里面相同的 HTML forumHTML
:
<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallfont" style="white-space
为什么会发生这种情况?如果这很重要,我在 Windows 64 位上使用 python 2.7。