Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我需要拆分由另一个 Pig 脚本生成的输出部分文件,并生成每个包含 1000 行的组。这些组将发布到 Web 服务以进行进一步处理。数据之间没有关系,因此我无法将数据分组到特定字段。
我如何在 Pig 中做到这一点?
如果拆分与数据无关,为什么还要使用 Pig 或 MapReduce?作为替代方案,如果我没有误解,您可以只使用标准拆分程序来拆分数据。例如:
cat part-* | split -d -l 1000 - result-