我是 Nutch 的新手,并且我尝试让它做一些特定的爬行,即我希望它首先进入一个特定域(例如维基百科)的 3 级深度 - 这部分可以通过修改 regex-urlfilter 文件来实现.
但后来我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。
所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便它们可以用作第二次爬取的种子?
我是 Nutch 的新手,并且我尝试让它做一些特定的爬行,即我希望它首先进入一个特定域(例如维基百科)的 3 级深度 - 这部分可以通过修改 regex-urlfilter 文件来实现.
但后来我希望它开始抓取它之前获取的所有外部链接,但只有 1 级深度。
所以,我的问题是,有没有办法从第一次运行中获取已爬取链接的列表,以便它们可以用作第二次爬取的种子?