2

我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它(简单的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以至于在第一次迭代后它无法容纳在内存中)

我想我可以做一些技巧,例如扩展FileInputFormatRecordReader多次服务拆分,但我想知道在 Hadoop 中是否有任何“标准”方式来做这件事。我不知道在 Hadoop 中实现这一目标的任何标准方法,但可能我错过了一些东西。

有任何想法吗 ?

4

1 回答 1

0

在多次通过拆分期间,您想对该数据结构执行什么操作?(查找、更新等)

您是否尝试过使用一些早期的 hadoop 作业(甚至可能是一些猪脚本)来并行执行该操作?

于 2012-09-23T10:58:10.213 回答