1

我正在使用 crawler4j 库来爬取一些网站,但是当我调用两次该过程时出现问题。它只适用于第一次。第二次没有给出任何错误,但它什么也不做。

我认为图书馆正在保存抓取的网址,这就是我不能打电话的原因。

我在这里看到了一些信息,但不是解决方案...

http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions

提前致谢,

冬眠者。

4

1 回答 1

1

您的抓取存储文件夹是在第一次之后写入的,此外,该文件无法自动删除(重新抓取),因为对该文件的访问被拒绝,所以在第二次,程序检查了该文件并认为所有 URL 都是爬行。您应该编辑 crawler4j 以完全关闭对 Crawl Storage 文件夹的访问。按照这个: https ://code.google.com/p/crawler4j/issues/detail?id=157

于 2013-11-01T12:50:50.650 回答