我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有改变gora.buffer.read.limit
,gora.buffer.read.limit
即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息
org.apache.gora.mapreduce.GoraRecordWriter: Flushing the datastore after 60000 records
工作完成后,我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么?gora.buffer.read.limit 对我的爬行有什么影响?有人可以指导吗?