问题标签 [pig-udf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
414 浏览

apache-pig - Pig 分布式缓存

getShipFilesgetCacheFiles在课堂上有什么区别EvalFunc

假设此方法中指定的任何文件都可用于exec分布式缓存中的方法

0 投票
1 回答
487 浏览

java - 多个元组作为用 Java 编写的 pig UDF 中的输入

pig 脚本的示例输出:

我最终想在我的 java UDF 中创建一个直方图。如何在我的 UDF 中一次输入所有这些?

0 投票
1 回答
479 浏览

java - ERROR 1066:无法打开别名结果的迭代器

首先,我对 Pig 几乎是新手,我正在使用它,因为我的组织支持它。现在,我正在通过以下方式从目录中读取 json 文件(不使用 elephntBird,因为它的局限性,因为 Jackson 解析器可以做很多事情):

当我说dump json时,它会显示 /user/json_data 目录下所有可用 json 文件的内容。现在我正在使用我的 UDF 来解析这些 json 文件并将数据插入 Cassandra。猪声明是:

但是当我转储结果时,它会显示以下异常:

我的UDF是:

我在这里看到了几个答案,但没有发现任何改进。如果我以错误的方式进行操作,请提供任何意见并提出替代方案。

0 投票
1 回答
48 浏览

pig-udf - 我如何编写 UDF 以将第二列转换为大写

我想将下面 i/p 文件的第二列转换为大写,这是正确的代码吗?输入文件 - 101、ahmed 102、kranthi 103、sagar 104、mamtha

0 投票
0 回答
391 浏览

hadoop - 错误 2078:从 UDF 中捕获错误

我收到错误“错误 2078:从 UDF 捕获错误:com.Hadoop.pig.SplitRec [捕获异常处理输入行 [1]]”。我确定输入字符串超出范围,但我不确定哪个记录(记录号)导致问题。

我正在尝试创建日志以显示导致问题的记录,但我不确定是否要调试以打印/记录错误记录。

输入看起来像:

**PXW01YIN 12000099PGEN PXW01YINFFFFFFFF PXW01YINIMFGUIPY04301Y301 JFK 00888JFK 008880001 PIMF 0000N/ACTRC5/TXN08/SCR301\/SEQ/TEX021\@

PXW01PIN 12000099PGEN PXW01PINFFFFFFFF PXW01PINIMFGUIAV04301P301 PER 03615PER 036150001 PIMF 0000N/ACTRCK/TXN08/SCR301\/SEQ/TEX021\@**

以上行是两条记录,我已经测试过它们(使用 LIMIT),它们没有引起问题。我有超过 150kb 的输入数据。

我正在使用的脚本:

0 投票
1 回答
330 浏览

java - Pig Latin 中的用户定义函数

我正在使用 Java 在 Hadoop 环境中为 Pig Latin 创建用户定义函数 UDF。我想创建多个输出文件。我试图创建一个 Java 程序来输出这些 CSV 文件,如下所示:

但这不起作用。有没有其他方法可以做到这一点,无论是通过 Java 还是 Pig Latin 本身?

0 投票
1 回答
87 浏览

apache-pig - 阅读 pig scheme/header 以了解元组中字段的顺序

有没有办法将 .pig_schema 或 .pig_header 值访问到 pig java udf 中,以便我知道正在解析哪个字段名。

我处理PigStorage由不同流程生成的输出,并且它不断变化。由于这些更改,我想尽可能少地进行更改。

例如:以前的格式喜欢 -{name:chararray, age:INT, salary:DOUBLE}

当前格式看起来像 - {sex:chararray, name:chararray, age:INT, salary:Double }

在我的 udf 中,我只对姓名和薪水感兴趣,但它们作为我的输入给出的顺序可能会有所不同,如上所述。

0 投票
1 回答
31 浏览

apache-pig - Pig udf 针对级联内置函数的效率

我是 PIG 脚本的新手,我有一个要求,我需要在最多 10 个条件下执行 Ladder If Else,据我所知,我们只有三元运算符,所以我想写一个 UDF,级联三元运算符如下所示:-(条件:语句1?(条件:语句2?语句3))

数据大小为数千万行,我是否应该继续努力为我的要求创建 UDF。

最后,如果它导致性能问题,那么付出努力是没有意义的。

据我所知,将针对考虑的每一行调用 UDF,并且对一百万条记录的递归调用是一个严重的开销。

0 投票
1 回答
98 浏览

java - PigStorage 是如何工作的?

我是新手Apache Pig,我想知道一些关于它如何将数据记录存储到 FS 的处理细节。

1.对于每个Tuple,在哪里PigStorage将它们变成可读的String

2.我可以调用那个stringfy函数供我自己使用吗?

谢谢~

0 投票
0 回答
90 浏览

java - Apache Pig UDF 无输出

我在多节点Hadoop集群上使用 Apache Pig 0.15.0。我将我的一些工作放在用 Java 编写的 Pig UDF 中。但是,在说他们成功完成之后PigHadoop我的 UDF 没有任何输出。而且,有些代码根本没有生效。我使用System.out.println()and System.out.flush(),但我的屏幕上仍然没有输出。这可能是什么原因?在这种情况下如何调试?