hadoop - Apache Nutch 在限制后刷新 gora 记录

Question

我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有改变gora.buffer.read.limit，gora.buffer.read.limit即在这两种情况下都使用它们的默认值 10000。在生成阶段，我将 topN 设置为 100,000。在生成作业期间，我得到以下信息

org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records

工作完成后，我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么？gora.buffer.read.limit 对我的爬行有什么影响？有人可以指导吗？

score 1 · Accepted Answer

那篇日志写在这里。默认情况下，缓冲区在写入 10000 条记录后被刷新，因此您必须在某个地方配置gora.buffer.write.limit为60000（at core-site.xmlor mapred-site.xmlor code？）。

这并不重要，因为它处于 INFO 级别。它只通知写缓冲区将被写入存储。每次调用store.flush()或gora.buffer.write.limit批量调用时都会发生写入过程。

hadoop - Apache Nutch 在限制后刷新 gora 记录

1 回答 1

Related

Reference