问题标签 [pig-udf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

23 问题

0 投票

1 回答

414 浏览

apache-pig - Pig 分布式缓存

getShipFiles和getCacheFiles在课堂上有什么区别EvalFunc？

假设此方法中指定的任何文件都可用于exec分布式缓存中的方法

2015-03-22T07:12:41.280

0 投票

1 回答

487 浏览

java - 多个元组作为用 Java 编写的 pig UDF 中的输入

pig 脚本的示例输出：

我最终想在我的 java UDF 中创建一个直方图。如何在我的 UDF 中一次输入所有这些？

java apache-pig udf pig-udf

2015-04-23T11:57:04.770

0 投票

1 回答

479 浏览

java - ERROR 1066：无法打开别名结果的迭代器

首先，我对 Pig 几乎是新手，我正在使用它，因为我的组织支持它。现在，我正在通过以下方式从目录中读取 json 文件（不使用 elephntBird，因为它的局限性，因为 Jackson 解析器可以做很多事情）：

当我说dump json时，它会显示 /user/json_data 目录下所有可用 json 文件的内容。现在我正在使用我的 UDF 来解析这些 json 文件并将数据插入 Cassandra。猪声明是：

但是当我转储结果时，它会显示以下异常：

我的UDF是：

我在这里看到了几个答案，但没有发现任何改进。如果我以错误的方式进行操作，请提供任何意见并提出替代方案。

java json apache-pig pig-udf

2015-07-22T08:22:16.060

0 投票

1 回答

48 浏览

pig-udf - 我如何编写 UDF 以将第二列转换为大写

我想将下面 i/p 文件的第二列转换为大写，这是正确的代码吗？输入文件 - 101、ahmed 102、kranthi 103、sagar 104、mamtha

pig-udf

2015-09-10T10:16:36.823

0 投票

0 回答

391 浏览

hadoop - 错误 2078：从 UDF 中捕获错误

我收到错误“错误 2078：从 UDF 捕获错误：com.Hadoop.pig.SplitRec [捕获异常处理输入行 [1]]”。我确定输入字符串超出范围，但我不确定哪个记录（记录号）导致问题。

我正在尝试创建日志以显示导致问题的记录，但我不确定是否要调试以打印/记录错误记录。

输入看起来像：

**PXW01YIN 12000099PGEN PXW01YINFFFFFFFF PXW01YINIMFGUIPY04301Y301 JFK 00888JFK 008880001 PIMF 0000N/ACTRC5/TXN08/SCR301\/SEQ/TEX021\@

PXW01PIN 12000099PGEN PXW01PINFFFFFFFF PXW01PINIMFGUIAV04301P301 PER 03615PER 036150001 PIMF 0000N/ACTRCK/TXN08/SCR301\/SEQ/TEX021\@**

以上行是两条记录，我已经测试过它们（使用 LIMIT），它们没有引起问题。我有超过 150kb 的输入数据。

我正在使用的脚本：

hadoop apache-pig pig-udf

2016-03-02T00:02:39.430

0 投票

1 回答

330 浏览

java - Pig Latin 中的用户定义函数

我正在使用 Java 在 Hadoop 环境中为 Pig Latin 创建用户定义函数 UDF。我想创建多个输出文件。我试图创建一个 Java 程序来输出这些 CSV 文件，如下所示：

但这不起作用。有没有其他方法可以做到这一点，无论是通过 Java 还是 Pig Latin 本身？

java hadoop apache-pig user-defined-functions pig-udf

2016-03-09T13:41:13.127

0 投票

1 回答

87 浏览

apache-pig - 阅读 pig scheme/header 以了解元组中字段的顺序

有没有办法将 .pig_schema 或 .pig_header 值访问到 pig java udf 中，以便我知道正在解析哪个字段名。

我处理PigStorage由不同流程生成的输出，并且它不断变化。由于这些更改，我想尽可能少地进行更改。

例如：以前的格式喜欢 -{name:chararray, age:INT, salary:DOUBLE}

当前格式看起来像 - {sex:chararray, name:chararray, age:INT, salary:Double }。

在我的 udf 中，我只对姓名和薪水感兴趣，但它们作为我的输入给出的顺序可能会有所不同，如上所述。

apache-pig udf pig-udf

2016-03-11T20:42:29.170

0 投票

1 回答

31 浏览

apache-pig - Pig udf 针对级联内置函数的效率

我是 PIG 脚本的新手，我有一个要求，我需要在最多 10 个条件下执行 Ladder If Else，据我所知，我们只有三元运算符，所以我想写一个 UDF，级联三元运算符如下所示：-（条件：语句1？（条件：语句2？语句3））

数据大小为数千万行，我是否应该继续努力为我的要求创建 UDF。

最后，如果它导致性能问题，那么付出努力是没有意义的。

据我所知，将针对考虑的每一行调用 UDF，并且对一百万条记录的递归调用是一个严重的开销。

apache-pig pig-udf bigdata

2016-04-08T11:52:16.510

0 投票

1 回答

98 浏览

java - PigStorage 是如何工作的？

我是新手Apache Pig，我想知道一些关于它如何将数据记录存储到 FS 的处理细节。

1.对于每个Tuple，在哪里PigStorage将它们变成可读的String？

2.我可以调用那个stringfy函数供我自己使用吗？

谢谢~

java apache-pig pig-udf

2016-04-21T11:52:30.980

0 投票

0 回答

90 浏览

java - Apache Pig UDF 无输出

我在多节点Hadoop集群上使用 Apache Pig 0.15.0。我将我的一些工作放在用 Java 编写的 Pig UDF 中。但是，在说他们成功完成之后Pig，Hadoop我的 UDF 没有任何输出。而且，有些代码根本没有生效。我使用System.out.println()and System.out.flush()，但我的屏幕上仍然没有输出。这可能是什么原因？在这种情况下如何调试？

java hadoop apache-pig pig-udf

2016-04-26T04:25:31.147

1 2 3 4 5 6 7 8 9 10

问题标签 [pig-udf]

Reference