nutch - 即使从 seed.txt (Nutch 2.1) 中删除 URL，网站也会被抓取

Question

我在seed.txt 中使用url-1 执行了成功的爬取，我可以在MySQL 数据库中看到爬取的数据。现在，当我尝试通过将 seed.txt 中的 url-1 替换为 url-2 来执行另一次新的爬网时，新的爬网从获取步骤开始，并且它试图获取的 url 是 seed.txt 中旧的替换 url。我不确定它是从哪里获取旧网址的。

我试图检查隐藏的种子文件，我没有找到任何文件，并且在 NUTCH_HOME/runtime/local 中只有一个文件夹 urls/seed.txt 我运行我的爬虫命令。请告知可能是什么问题？

score 3 · Accepted Answer

您的爬网数据库包含要爬网的 URL 列表。除非您删除原始爬网目录或创建新目录作为新爬网的一部分，否则将使用原始 URL 列表并使用新 URL 进行扩展。

nutch - 即使从 seed.txt (Nutch 2.1) 中删除 URL，网站也会被抓取

1 回答 1

Related

Reference