2

我试图图书馆 jericho 和 jsoup。但不幸的是,解析的文本包含链接。事实上,我正在尝试对 html 文本进行标记以查找关键字,而这两个库正在产生很多非常难以处理的噪音。

public static String getPlainTextJsoup(String pageSrc) {
        Document doc = Jsoup.parse(pageSrc);
        return doc.body().text();
    }

public static String getPlainTextExtractJericho(String htmlSrc) {
        Source src = new Source(htmlSrc);
        return src.getTextExtractor().setIncludeAttributes(true).toString();
    }
 public static String getPlainText(String html) {
        Source htmlSource = new Source(html);
        Segment htmlSeg = new Segment(htmlSource, 0, html.length());
        Renderer htmlRend = new Renderer(htmlSeg);
       // System.out.println(htmlRend.toString());
        return htmlRend.toString();
    }

通过此链接:

http://jobview.monster.com/Sr-Java-Developer-Job-Baltimore-MD-126949729.aspx

我收到如下噪音:1061349 20baltimore 2c 2f

所有这些都来自链接/ src 等标签。

如何防止这些链接元素出现在解析的文本中?

谢谢

4

1 回答 1

1

What about setting the as text to ""?

like this:

public static void main(final String[] args) throws IOException
{
    Document document = Jsoup.connect("http://www.google.com").get();

    System.out.println(document.text());

    // replace the "a"s text
    for (Element element: document.getElementsByTag("a"))
    {
        element.text("");
    }
    System.out.println("Without a's");
    System.out.println(document.text());
}

It will print:

Google Suche Bilder Maps Play YouTube News Gmail Drive Mehr » Webprotokoll | Einstellungen | Anmelden × Schneller im Internet unterwegs Installieren Sie Google Chrome Deutschland   Erweiterte SucheSprachoptionen Werben mit GoogleUnternehmensangebote+GoogleÜber GoogleGoogle.com © 2013 - Datenschutzerklärung & Nutzungsbedingungen
Without a's
Google Suche | | × Schneller im Internet unterwegs Deutschland   © 2013 -
于 2014-10-21T17:35:01.287 回答