1

我在seed.txt 中使用url-1 执行了成功的爬取,我可以在MySQL 数据库中看到爬取的数据。现在,当我尝试通过将 seed.txt 中的 url-1 替换为 url-2 来执行另一次新的爬网时,新的爬网从获取步骤开始,并且它试图获取的 url 是 seed.txt 中旧的替换 url。我不确定它是从哪里获取旧网址的。

我试图检查隐藏的种子文件,我没有找到任何文件,并且在 NUTCH_HOME/runtime/local 中只有一个文件夹 urls/seed.txt 我运行我的爬虫命令。请告知可能是什么问题?

4

1 回答 1

3

您的爬网数据库包含要爬网的 URL 列表。除非您删除原始爬网目录或创建新目录作为新爬网的一部分,否则将使用原始 URL 列表并使用新 URL 进行扩展。

于 2013-04-17T16:24:50.997 回答