我试图图书馆 jericho 和 jsoup。但不幸的是,解析的文本包含链接。事实上,我正在尝试对 html 文本进行标记以查找关键字,而这两个库正在产生很多非常难以处理的噪音。
public static String getPlainTextJsoup(String pageSrc) {
Document doc = Jsoup.parse(pageSrc);
return doc.body().text();
}
public static String getPlainTextExtractJericho(String htmlSrc) {
Source src = new Source(htmlSrc);
return src.getTextExtractor().setIncludeAttributes(true).toString();
}
public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}
通过此链接:
http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx
我收到如下噪音:1061349 20baltimore 2c 2f
所有这些都来自链接/ src 等标签。
如何防止这些链接元素出现在解析的文本中?
谢谢