0

在处理 TeraBytes 数据时,对于典型的数据过滤问题,Apache PIG 是正确的选择吗?还是让自定义 MapReduce 代码来完成这项工作更好。

4

1 回答 1

3

Apache PIG 不用作存储层。PIG 是一种脚本语言,可简化可在 Hadoop 上运行的代码的创建。PIG 脚本被编译成一组 Hadoop MapReduce 作业,这些作业被提交到 Hadoop,并以与任何其他 MapReduce 作业相同的方式运行。

Hadoop 负责数据存储,而不是 PIG。

回答您的问题:不,输入数据的大小没有限制。只要输入数据可以被 PIG 加载函数解析并且可以被 Hadoop InputFormats 分割。

PIG 脚本比标准 Java Hadoop 作业更容易和更快地编写,并且 PIG 具有许多巧妙的优化,例如多查询执行,这可以使您的复杂查询执行得更快。

于 2012-09-27T09:40:29.523 回答