有没有办法控制要存储在零件文件中的记录数?
谢谢。
不容易(如果有的话)。输出中的部分文件数量由脚本的并行性决定,并且数据被非确定性地拆分为这些部分文件。我能想到的唯一方法是:
A = FOREACH output GENERATE 1 AS num ;
B = FOREACH (GROUP A ALL) GENERATE COUNT(A) AS totaloutputlines ;
-- Then store both output and B
然后,在 python 包装器中,用于totaloutputlines
设置 python 包装器正在运行的脚本的并行度,以便PAR = number of lines in B / number of lines you want per file
. 这有望大致控制每个部分文件的记录数。
MultiStorage
也许您可以通过将输出拆分为每个您使用的字段值的文件来获得接近您想要的东西。