java - 从 JSOUP 解析的 HTML 中删除转义文本

Question

我正在使用 JSOUP 解析 HTML，其中也包含一些元素。但是，当我打印生成的 doc.html() 时，而不是：

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>

我正进入（状态：

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

在代码中，我进行如下操作：

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

我正在使用 UTF-8 字符集。

如何直接获取未转义的文本？提前致谢！

score 4 · Accepted Answer

嘿，感谢您的所有帮助...我们使用以下方法解决了问题：

src.childNode(0).attr("data", data);

score 0 · Accepted Answer

0

改用该.html()方法

src.html(data)

于 2012-04-23T18:06:34.797 回答

score 0 · Accepted Answer

我遇到了同样的问题。来自 Apache Commons的StringEscapeUtils似乎可以解决问题。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO 这不是解决这个问题的最佳方法，但它对我有用。

java - 从 JSOUP 解析的 HTML 中删除转义文本

3 回答 3

Related

Reference