我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它(简单的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以至于在第一次迭代后它无法容纳在内存中)
我想我可以做一些技巧,例如扩展FileInputFormat
和RecordReader
多次服务拆分,但我想知道在 Hadoop 中是否有任何“标准”方式来做这件事。我不知道在 Hadoop 中实现这一目标的任何标准方法,但可能我错过了一些东西。
有任何想法吗 ?
我需要多次迭代输入拆分。我需要这个的原因超出了这个问题的范围。假设我只需要它(简单的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以至于在第一次迭代后它无法容纳在内存中)
我想我可以做一些技巧,例如扩展FileInputFormat
和RecordReader
多次服务拆分,但我想知道在 Hadoop 中是否有任何“标准”方式来做这件事。我不知道在 Hadoop 中实现这一目标的任何标准方法,但可能我错过了一些东西。
有任何想法吗 ?