0

我有一系列文本条目,我试图清除 HTML 和 XML。我正在使用 Java Apache Commons StringEscapeUtils ,一般来说,如果在 String 上使用它们,它们可以很好地处理事情:

s = unescapeHtml(s);
s = unescapeXml(s);

但如果我有这样的事情:

    This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
    &partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
    .7020,cat.TechBiz.rss"/>

Apache utils 无效。

任何人都可以提出另一种方法吗?

4

1 回答 1

2

您可以尝试使用Jsoup

String text = Jsoup.parse(html).text();

这将剥离所有 HTML。

于 2013-10-10T16:03:48.587 回答