1

对于我们的应用程序,我们希望引用引号(单引号和双引号),但不需要引用害羞字符。

为了更具体,这段代码:

from lxml.html import fromstring, tostring
parsed = fromstring(u'<div>That fire&shy;fighter is 6&#39;11&#34; tall!</div>')
print repr(tostring(parsed, encoding=unicode))

...有这个输出:

u'<div>That fire\xadfighter is 6\'11" tall!</div>'

...但我想要这个输出:

u'<div>That fire\xadfighter is 6&#39;11&#34; tall!</div>'

本质上,我想覆盖默认的编码/转义行为。


据我所知,这在 libxml2 中不受支持。我现在也将接受一种完全可靠(希望是快速)的后处理方法。

4

0 回答 0