url - Nutch - 先爬取域名

Question

我是 Nutch 的新手，并且我尝试让它做一些特定的爬行，即我希望它首先进入一个特定域（例如维基百科）的 3 级深度 - 这部分可以通过修改 regex-urlfilter 文件来实现.

但后来我希望它开始抓取它之前获取的所有外部链接，但只有 1 级深度。

所以，我的问题是，有没有办法从第一次运行中获取已爬取链接的列表，以便它们可以用作第二次爬取的种子？

score 2 · Accepted Answer

您可以使用以下命令获取已抓取的 url 列表：

bin/nutch readdb crawl/crawldb -dump file

然后，您可以使用该命令的输出手动编辑 urls/seed.txt 文件。

1 回答 1