0

我是 Nutch 的新手,并且我尝试让它做一些特定的爬行,即我希望它首先进入一个特定域(例如维基百科)的 3 级深度 - 这部分可以通过修改 regex-urlfilter 文件来实现.

但后来我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。

所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便它们可以用作第二次爬取的种子?

4

1 回答 1

2

您可以使用以下命令获取已抓取的 url 列表:

bin/nutch readdb crawl/crawldb -dump file

然后,您可以使用该命令的输出手动编辑 urls/seed.txt 文件。

于 2013-03-29T21:25:10.350 回答