java - 使用 crawler4j 时如何解析 html

Question

最近，我不得不用开源项目crawler4j爬取一些网站。但是，crawler4j没有提供任何api可供使用。现在，我遇到了一个问题，我如何用crawler4j提供的函数和类来解析html并找到像我们使用 jquery 一样的元素

score 8 · Accepted Answer

它相对简单。以下方法对我有用。

在MyCrawler.java：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...

java - 使用 crawler4j 时如何解析 html

1 回答 1

Related

Reference