1

Map 侧连接实际可以连接的最大路径数是多少?

我有n 个文件夹 - path/to/folder1 , path/to/folder2 , path/to/folder3 ....so on path/to/folder in HDFS

path/to/folder1 包含 3 个文件,例如 part-1、part-2、part-3。同样,所有其余文件夹中的每个文件夹都有 3 个文件,每个文件的名称与 folder1 中的相同。

我想使用地图侧连接加入这些文件夹,如下所示

pathsToJoin <- path/to/folder1 , path/to/folder2 , path/to/folder3 ....so on path/to/folder* n *

String joinStmt = CompositeInputFormat.compose("outer",TextInputFormat,pathsToJoin);

conf.set("mapred.join.expr", joinStmt);

由于每个文件夹中有 3 个文件,因此该作业将产生 3 个映射任务(所有第 1 部分文件的内容加入到一个映射器,所有第 2 部分文件的内容到第 2 个映射器,所有第 3 部分文件的内容到第 3 个映射器) 但我想知道这里n的最大值是多少?

4

1 回答 1

0

CompositeInputFormat 的源代码中似乎没有硬性限制,路径被附加到描述连接的字符串表达式,然后解析为拆分。你可能受到内存的限制,但我想你可以列出 100 个,如果不是 1000 个,没有任何问题

于 2012-11-27T11:51:07.253 回答