1

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有改变gora.buffer.read.limitgora.buffer.read.limit即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

工作完成后,我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么?gora.buffer.read.limit 对我的爬行有什么影响?有人可以指导吗?

4

1 回答 1

1

那篇日志写在这里。默认情况下,缓冲区在写入 10000 条记录后被刷新,因此您必须在某个地方配置gora.buffer.write.limit60000(at core-site.xmlor mapred-site.xmlor code?)。

这并不重要,因为它处于 INFO 级别。它只通知写缓冲区将被写入存储。每次调用store.flush()gora.buffer.write.limit批量调用时都会发生写入过程。

于 2018-04-19T09:04:33.100 回答