我正在使用 jsoup 进行一些 xml 处理。问题是,它正在替换 xml 实体,即:»
用 html 实体:»
我怎样才能保留原始(xml)实体?
Groovy 脚本:
import org.jsoup.Jsoup
import org.jsoup.nodes.Document
import org.jsoup.nodes.Entities
import org.jsoup.parser.Parser
String HTML_STRING = '''
<html>
<div></div>
<div>Some text »</div>
</html>
'''
Document doc = Jsoup.parse(new ByteArrayInputStream(HTML_STRING.getBytes("UTF-8")), "UTF-8", "", Parser.xmlParser())
doc.outputSettings().charset("UTF-8")
doc.outputSettings().escapeMode(Entities.EscapeMode.base)
println doc.toString()
结果:
<html>
<div></div>
<div>
Some text »
</div>
</html>
如果我使用Entities.EscapeMode.xhtml
结果是:
<html>
<div></div>
<div>
Some text »
</div>
</html>
谢谢。