input - Hadoop 多次读取输入拆分

Question

我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它（简单的解释是我需要多次使用输入拆分来填充数据结构，并且拆分可能足够大，以至于在第一次迭代后它无法容纳在内存中）

我想我可以做一些技巧，例如扩展FileInputFormat和RecordReader多次服务拆分，但我想知道在 Hadoop 中是否有任何“标准”方式来做这件事。我不知道在 Hadoop 中实现这一目标的任何标准方法，但可能我错过了一些东西。

有任何想法吗？

score 0 · Accepted Answer

在多次通过拆分期间，您想对该数据结构执行什么操作？（查找、更新等）

您是否尝试过使用一些早期的 hadoop 作业（甚至可能是一些猪脚本）来并行执行该操作？

1 回答 1