0

目前正在学习 Apache Pig 和 Hadoop 并使用 6200 万的庞大数据集。只是尝试执行正常的 COUNT 函数并不断出错。我分配了 8gig 的 RAM,我可以使用 HIVE 轻松完成,但似乎遇到了解析问题或堆分配问题,每次都不同。我在虚拟机上使用 hadoop。

错误是:

文件 script.pig,第 3 行,第 39 列> 无法生成逻辑计划。嵌套异常:org.apache.pig.backend.executionengine.ExecException:错误 1070:无法使用导入解析计数:[、java.lang.、org.apache.pig.builtin.、org.apache.pig.impl.builtin .]

错误 org.apache.pig.PigServer - 解析期间出现异常:解析期间出错。无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]

错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]

错误 org.apache.pig.tools.grunt.Grunt - 错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]

我的猪代码

a = LOAD 'bigData_orc' using org.apache.hive.hcatalog.pig.HCatLoader();
b = group a ALL;
c = foreach b generate group as rap, count(a) as counter;
dump c;`
4

2 回答 2

2

无法解析计数

尝试将COUNT()Pig 函数大写

于 2016-08-24T18:12:09.550 回答
0

我将环境变量重置为原始状态。然后我重置了管理员密码,以管理员身份登录,并通过 Ambari 运行更新了所有环境变量。Ambari 很有帮助,可以解决其他需要更多空间分配的变量。能够将我的堆分配增加到 20GB 的 RAM 并且能够通过 Pig 计算所有 6800 万行。

于 2016-09-09T00:51:55.317 回答