我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我有几百个要获取的域。到目前为止,我已经取得了许多。我很好奇 Nutch 何时会再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西?
1 回答
Nutch 有几种方法可以配置何时再次获取页面(请参阅https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml)。
db.fetch.interval.default
(第一次获取页面时分配的初始获取值)。请记住,默认实现(db.fetch.schedule.class
https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396 )总是将获取间隔添加到最后一次获取时间,所以并不理想。我建议切换到自适应获取计划算法,它将尝试根据页面更新的频率优化下一次获取时间(https://github.com/apache/nutch/blob/release-2.3.1/src /java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java)。
请记住,您还可以使用nutch.fetchInterval
种子文件(https://github.com/apache/nutch/blob/release-2.3.1/src/java/中的元数据键指定每个 URL 获取时间(在注入时) org/apache/nutch/crawl/InjectorJob.java#L59)。