我有一个包含大约 20Lakhs 压缩输入文件的文件夹。每个压缩文件由 2 到 4 个文件组成。我有一个大小为 5 的 MapR 集群。我正在使用 hadoop MapReduce 来处理这些文件。我想在映射器中处理之前一次组合 N 个输入文件。关于如何组合一些输入文件以使单个映射器处理多个文件的任何建议?
我有一个包含大约 20Lakhs 压缩输入文件的文件夹。每个压缩文件由 2 到 4 个文件组成。我有一个大小为 5 的 MapR 集群。我正在使用 hadoop MapReduce 来处理这些文件。我想在映射器中处理之前一次组合 N 个输入文件。关于如何组合一些输入文件以使单个映射器处理多个文件的任何建议?