2

这似乎是一个非常常见的用例,但在 Hadoop 中很难做到(可以使用 WholeFileRecordReader 类)。在 Dumbo 或 Pig 中是否有可能?有谁知道使用 Dumbo 或 Pig 将整个文件作为地图任务处理的方法?

4

2 回答 2

0

我假设您希望在 Pig 中记录一个文件。如果没有,请在您的问题中更具体。

我不知道有一个 Pig 存储加载器可以一次加载整个文件(在标准发行版或 piggybank 中)。建议你自己写个 Pig 自定义加载器,比较简单。

于 2011-08-31T02:04:36.350 回答
0

WholeFileRecordReader 表示不拆分输入文件?如果是这样,将 mapred.min.split.size 定义为一个非常大的值,mapreduce 和 Pig 都会接受它。

于 2011-08-30T17:47:30.240 回答