我有一系列文本条目,我试图清除 HTML 和 XML。我正在使用 Java Apache Commons StringEscapeUtils ,一般来说,如果在 String 上使用它们,它们可以很好地处理事情:
s = unescapeHtml(s);
s = unescapeXml(s);
但如果我有这样的事情:
This is text. So is this. <img alt="" height="0" width="0" border="0"style="display:none"
src="http://segment-pixel.invitemedia.com/pixel?code=TechBiz
&partnerID=167&key=segment"/><img alt="" height="0" width="0" border="0" style="display:none" src="http://pixel.quantserve.com/pixel/p-8bUhLiluj0fAw.gif?labels=pub.28834.rss.TechBiz
.7020,cat.TechBiz.rss"/>
Apache utils 无效。
任何人都可以提出另一种方法吗?