0

我目前正在学习 Pig,并且正在 Hortonworks Sandbox 中执行我的脚本。从一开始就困扰我的是 Pig 脚本的最短执行时间似乎至少为 30-40 秒。那是因为我使用的是 Hortonworks Sandbox 还是 Pig 脚本很正常?有没有办法减少执行时间,因为这真的减慢了我的学习进度?如果这个执行时间是正常的,你能解释一下发生了什么,为什么会这样?

附言

我为 Hortonworks 虚拟机分配了 2GB RAM。顺便提一下,我目前只在小型数据集上执行简单的脚本。

4

2 回答 2

0

是的,对于 Pig 来说,30-40 秒是绝对正常的,因为它在编译作业、启动 JVM 等方面有很大的开销。如另一个答案中所述 - 您可以尝试在本地模式下运行。输入仅包含几行数据的简单工作通常需要大约 15 秒。顺便说一句,我的 Cloudera VM 分配有 4G 的 RAM。

于 2013-11-23T12:45:04.017 回答
0

如果您在本地模式下执行 pig (pig -x local),那么它会运行得更快,但它不会执行 map-reduce 并且不会访问 hdfs - 不过这对学习很有好处!

于 2013-11-12T08:34:52.150 回答