0

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我有几百个要获取的域。到目前为止,我已经取得了许多。我很好奇 Nutch 何时会再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西?

4

1 回答 1

2

Nutch 有几种方法可以配置何时再次获取页面(请参阅https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml)。

db.fetch.interval.default(第一次获取页面时分配的初始获取值)。请记住,默认实现(db.fetch.schedule.classhttps://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396 总是将获取间隔添加到最后一次获取时间,所以并不理想。我建议切换到自适应获取计划算法,它将尝试根据页面更新的频率优化下一次获取时间(https://github.com/apache/nutch/blob/release-2.3.1/src /java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java)。

请记住,您还可以使用nutch.fetchInterval种子文件(https://github.com/apache/nutch/blob/release-2.3.1/src/java/中的元数据键指定每个 URL 获取时间(在注入时) org/apache/nutch/crawl/InjectorJob.java#L59)。

于 2018-05-04T09:33:18.720 回答