hadoop - Apache Pig 对输入数据大小有任何限制吗？

Question

在处理 TeraBytes 数据时，对于典型的数据过滤问题，Apache PIG 是正确的选择吗？还是让自定义 MapReduce 代码来完成这项工作更好。

score 3 · Accepted Answer

Apache PIG 不用作存储层。PIG 是一种脚本语言，可简化可在 Hadoop 上运行的代码的创建。PIG 脚本被编译成一组 Hadoop MapReduce 作业，这些作业被提交到 Hadoop，并以与任何其他 MapReduce 作业相同的方式运行。

Hadoop 负责数据存储，而不是 PIG。

回答您的问题：不，输入数据的大小没有限制。只要输入数据可以被 PIG 加载函数解析并且可以被 Hadoop InputFormats 分割。

PIG 脚本比标准 Java Hadoop 作业更容易和更快地编写，并且 PIG 具有许多巧妙的优化，例如多查询执行，这可以使您的复杂查询执行得更快。

1 回答 1