1

我是 PIG 脚本的新手,我有一个要求,我需要在最多 10 个条件下执行 Ladder If Else,据我所知,我们只有三元运算符,所以我想写一个 UDF,级联三元运算符如下所示:-(条件:语句1?(条件:语句2?语句3))

数据大小为数千万行,我是否应该继续努力为我的要求创建 UDF。

最后,如果它导致性能问题,那么付出努力是没有意义的。

据我所知,将针对考虑的每一行调用 UDF,并且对一百万条记录的递归调用是一个严重的开销。

4

1 回答 1

1

我认为如果您可以访问大型集群,UDF 应该不是问题,它可以提高脚本的可读性。最后,您的脚本也编译为 java 可执行文件。如果您可以在昂贵的操作之前过滤数据,那么性能上的最大胜利。

于 2016-04-08T22:37:30.247 回答