0

我正在尝试使用 Jericho 使用以下代码解析纯文本:

    public static String getPlainText(String html) {
    Source htmlSource = new Source(html);
    Segment htmlSeg = new Segment(htmlSource, 0, html.length());
    Renderer htmlRend = new Renderer(htmlSeg);
   // System.out.println(htmlRend.toString());
    return htmlRend.toString();
}

但是对于以下 html 片段:

    Phone (808) 845-0000<br />
    Fax (808) 842-3616
    <a href="mailto:helpdesk@progressive-hi.com">
    helpdesk@progressive-hi.com</a>         

我得到输出:

电话 (808) 845-0000 传真 (808) 842-3616helpdesk@progressive-hi.com

现在我想要的是标签中的所有文本都应该彼此分开,即传真和电子邮件应该彼此分开。有没有办法做到这一点?

谢谢

4

1 回答 1

1

问题解决了。

Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());

http://jericho.htmlparser.net/samples/console/src/ExtractText.java

于 2012-12-23T08:51:07.523 回答