java - Crawler4j 仅访问种子 URL

Question

我正在使用crawler4j爬虫网站来提取结构化数据。我已经设置了所有内容，并使用项目主页上示例中给出的默认 URL，一切正常，但是当我放置自己的种子时，应用程序只会访问我给它的 URL。我错过了什么？

score 1 · Accepted Answer

1

最常见的错误是 shouldVisit 方法总是返回 false，因此爬虫只访问种子 url。

于 2013-08-18T10:01:08.670 回答

1 回答 1