我知道在 Hadoop 中,大输入文件拆分为小文件,并由映射函数在不同节点中进行处理。我还知道我们可以自定义InputSplit
s. 我想知道的是是否可以进行以下类型的自定义InputSplit
:
我有一个大的输入文件进入 Hadoop,我想要文件的一个子集,即文件中的一组行与每个输入拆分一起进行。我的意思是大文件的所有数据块都应该包含这些行集,无论文件以何种方式拆分。
为了让我的问题更清楚,比如如果我们需要将输入文件的一部分A
(比如比较。请指导我。InputSplit
map
A