我们正在使用 nutch 1.6 来抓取网页。根据 nutch 配置,应该给种子列表和域 url-filter 以遍历指定域。但是,如果它们的扩展名是 co.uk(仅适用于此扩展名),我们希望获取新发现的 url,我们可以通过将新发现的 url 的域添加到文件 - 或 db,无论如何 - 来管理它,停止爬虫,更新域 url-filters 和种子列表,然后重新启动它。但是我们如何动态地做到这一点,而不停止爬虫呢?
提前致谢。
PS:co.uk 域名扩展只是一个例子,我们也可以添加多个扩展来允许。