python - 如何在将pyquery对象转换为字符串时取消转义特殊字符

Question

我正在尝试使用 python requests 模块获取远程页面，重建 DOM 树，进行一些处理并将结果保存到文件中。当我获取一个页面然后将其写入文件时，一切正常（我稍后可以在浏览器中打开一个 html 文件并且它被正确呈现）。

但是，如果我创建一个 pyquery 对象并进行一些处理，然后使用 str 转换将其保存，则会失败。具体来说，像 && 等特殊字符会在已保存源的脚本标签中被修改（由 pyquery 应用引起），它会阻止页面正确呈现。

这是我的代码：

import requests
from lxml import etree
from pyquery import PyQuery as pq

user_agent = {'User-agent': 'Mozilla/5.0'}
r = requests.get('http://www.google.com',headers=user_agent, timeout=4)

DOM = pq(r.text)
#some optional processing
fTest = open("fTest.html","wb")
fTest.write(str(DOM))
fTest.close()

所以，问题是：如何确保在应用 pyquery 后特殊字符不会被转义？我想它可能与 lxml（pyquery 的父库）有关，但是在网上进行了繁琐的搜索并尝试了不同的对象序列化方式后，我仍然没有成功。也许这也与Unicode处理有关？！

提前谢谢了！

score 3 · Accepted Answer

我找到了一个优雅的解决问题的方法，以及之前代码不起作用的原因。

首先，您可以仔细阅读带有http://lxml.de/lxmlhtml.html的页面。它有一个部分“使用 E-factory 创建 HTML”。在该部分之后，他们指出etree.tostring() method仅适用于 XML 的事实。但是对于具有额外可能具有脚本或样式标签的 HTML，它将使事情变得混乱。所以.. 其次，解决方法是使用重载方法html.tostring()。

最终的工作代码是：

# for networking
import requests
# for parsing and serialization
from lxml import etree
from lxml.html import tostring as html2str # IMPORTANT!!!
from pyquery import PyQuery as pq

user_agent = {'User-agent': 'Mozilla/5.0'}
r = requests.get('http://www.google.com',headers=user_agent, timeout=4)

# construct DOM object
DOM = pq(r.text)
# do stuff with DOM
#
# save result to file
fTest = open("fTest.html","wb")
fTest.write(html2str(DOM.root)) # IMPORTANT!!!
fTest.close()

希望它会在未来为你们中的一些人节省时间！玩得开心！;)

python - 如何在将pyquery对象转换为字符串时取消转义特殊字符

1 回答 1

Related

Reference