我目前正面临包含“<”符号的 mathjax 方程的问题。如果我用 lxml 解析这些字符串会被裁剪。
有没有办法告诉解析器不要删除未知标签(我想这就是问题所在)但保持原样?
例如
s="<div> This is a text with mathjax like $1<2$, let's see if this works till here $2>1$! </div>"
from lxml import html
tree=html.fragment_fromstring(s)
html.tostring(tree)
给出:
'<div> This is a text with mathjax like $11$! </div>'
如果 '<' 没有被裁剪就可以了。
我完全知道这不是有效的 xml。但是,不幸的是,我无法用源代码中正确的 html 转义符号替换 '<' 符号,因为实际上,我正在尝试解析包含 html 标签的降价文件,而 < 符号在这里是一个非常好的符号。
谢谢!
雅各布