我有这种格式的数据:student_id, course_id,grade,other_information
。这适用于大量学生,比如数十亿。我编写了一个 perl 脚本来处理学生的数据。所以想到使用hadoop框架通过将每个学生的数据流式传输到perl脚本来加速这个过程。
这就是我的做法:
student_data = LOAD 'source' using PigStorage('\t') As (stud_id:string,...)
grp_student = group student_data by stud_id;
final_data = foreach grp_student {
flat_data = flatten(grp_student)
each_stud_data = generate flat_data;
result = STREAM each_stud_data THROUGH 'some perl script';
}
store final_data into '/some_location';
问题:我收到此错误Syntax error, unexpected symbol at or near 'flatten'
。试图谷歌但徒劳无功。有人可以帮忙吗?