4

我正在使用 JSOUP 解析 HTML,其中也包含一些元素。但是,当我打印生成的 doc.html() 时,而不是:

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script> 

我正进入(状态 :

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

在代码中,我进行如下操作:

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

我正在使用 UTF-8 字符集。

如何直接获取未转义的文本?提前致谢 !

4

3 回答 3

4

嘿,感谢您的所有帮助...我们使用以下方法解决了问题:

src.childNode(0).attr("data", data);
于 2012-04-24T13:03:21.733 回答
0

改用该.html()方法

src.html(data)
于 2012-04-23T18:06:34.797 回答
0

我遇到了同样的问题。来自 Apache Commons的StringEscapeUtils似乎可以解决问题。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO 这不是解决这个问题的最佳方法,但它对我有用。

于 2012-05-15T11:43:12.650 回答