如果我执行以下命令,则在 Python 的 BeautifulSoup4 中:
soup = BeautifulSoup("<a href='http://somelink'>link</a>")
print soup
输出是:
<a href="http://somelink">link</a>
BeaurifulSoup 用双引号替换单引号,我不希望这样。如何取消/覆盖该行为?
澄清:
我使用urllib2获取以下页面的html:http://www.download3000.com/
然后使用BeautifulSoup4仅提取部分html。
我制作了一个函数,它接受一个文档(并不总是 html)和一些它需要捕获的样本并返回一个正则表达式。我用以下示例提供函数:
samples = [
'/showarticles-1-0-date.html',
'/showarticles-2-0-date.html',
'/showarticles-3-0-date.html'
]
给定http://www.download3000.com/
页面的 html 代码和上面的示例,我的函数返回以下正则表达式:\w\w><li><a href="(.*?)">\w\w\w\w\w
如果我将正则表达式应用于 download3000 的 html 代码,它将找不到任何匹配项。那是因为链接在 html 中被单引号包围,但是当我使用 BeautifulSoup 时,它将单引号替换为双引号,并且生成的正则表达式仅适用于 BeaurifulSoup 修改的 html。
这就是为什么我需要强制 BeautifulSoup 不要用双引号替换单引号,这样生成的正则表达式就会是\w\w><li><a href='(.*?)'>\w\w\w\w\w
,从而从页面中提取我需要的内容。
我可以使用转储解决方案,例如将正则表达式中的所有单引号替换为["\']
,但随后正则表达式也会捕获一些我不想要的链接。