目前正在学习 Apache Pig 和 Hadoop 并使用 6200 万的庞大数据集。只是尝试执行正常的 COUNT 函数并不断出错。我分配了 8gig 的 RAM,我可以使用 HIVE 轻松完成,但似乎遇到了解析问题或堆分配问题,每次都不同。我在虚拟机上使用 hadoop。
错误是:
文件 script.pig,第 3 行,第 39 列> 无法生成逻辑计划。嵌套异常:org.apache.pig.backend.executionengine.ExecException:错误 1070:无法使用导入解析计数:[、java.lang.、org.apache.pig.builtin.、org.apache.pig.impl.builtin .]
错误 org.apache.pig.PigServer - 解析期间出现异常:解析期间出错。无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
错误 org.apache.pig.tools.grunt.Grunt - 错误 1070:无法使用导入解析计数:[, java.lang., org.apache.pig.builtin., org.apache.pig.impl.builtin.]
我的猪代码
a = LOAD 'bigData_orc' using org.apache.hive.hcatalog.pig.HCatLoader();
b = group a ALL;
c = foreach b generate group as rap, count(a) as counter;
dump c;`