我正在尝试使用 Jericho 使用以下代码解析纯文本:
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
但是对于以下 html 片段:
Phone (808) 845-0000<br />
Fax (808) 842-3616
<a href="mailto:helpdesk@progressive-hi.com">
helpdesk@progressive-hi.com</a>
我得到输出:
电话 (808) 845-0000 传真 (808) 842-3616helpdesk@progressive-hi.com
现在我想要的是标签中的所有文本都应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法做到这一点?
谢谢