我有一个想在 HBase (0.90.4; Hadoop 0.20) 中运行的 Mapper,它将为每个单个输入行在不同的 HBase 表中生成几个 (1000 - 10000) 新数据行。
我从一个TableMapper<ImmutableBytesWritable, Put>
假设开始,在 map 函数中,我会调用context.write(someSingleOutputRowPut)
1000 次以将数据推送到输出表。
拥有一个只读映射器并使用成批的 Puts 列表手动写入我的输出表会更好吗?还是应该将映射器的输出类型更改为列表?或者像这样多次调用 context.write 可以吗?
编辑:开始收集有关调用 context.write 数千次的“幼稚”方法的一些数据,到目前为止看起来并不好(现在我正在尝试更大的数据集,特别是)所以是时候尝试随机的事情了看看有什么改进。