apache - nutch 时间安排再次访问一个页面

Question

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我有几百个要获取的域。到目前为止，我已经取得了许多。我很好奇 Nutch 何时会再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西？

score 2 · Accepted Answer

Nutch 有几种方法可以配置何时再次获取页面（请参阅https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml）。

db.fetch.interval.default（第一次获取页面时分配的初始获取值）。请记住，默认实现（db.fetch.schedule.classhttps://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396 ）总是将获取间隔添加到最后一次获取时间，所以并不理想。我建议切换到自适应获取计划算法，它将尝试根据页面更新的频率优化下一次获取时间（https://github.com/apache/nutch/blob/release-2.3.1/src /java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java）。

请记住，您还可以使用nutch.fetchInterval种子文件（https://github.com/apache/nutch/blob/release-2.3.1/src/java/中的元数据键指定每个 URL 获取时间（在注入时） org/apache/nutch/crawl/InjectorJob.java#L59）。

apache - nutch 时间安排再次访问一个页面

1 回答 1

Related

Reference