问题标签 [pig-udf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - Pig 分布式缓存
getShipFiles
和getCacheFiles
在课堂上有什么区别EvalFunc
?
假设此方法中指定的任何文件都可用于exec
分布式缓存中的方法
java - 多个元组作为用 Java 编写的 pig UDF 中的输入
pig 脚本的示例输出:
我最终想在我的 java UDF 中创建一个直方图。如何在我的 UDF 中一次输入所有这些?
java - ERROR 1066:无法打开别名结果的迭代器
首先,我对 Pig 几乎是新手,我正在使用它,因为我的组织支持它。现在,我正在通过以下方式从目录中读取 json 文件(不使用 elephntBird,因为它的局限性,因为 Jackson 解析器可以做很多事情):
当我说dump json时,它会显示 /user/json_data 目录下所有可用 json 文件的内容。现在我正在使用我的 UDF 来解析这些 json 文件并将数据插入 Cassandra。猪声明是:
但是当我转储结果时,它会显示以下异常:
我的UDF是:
我在这里看到了几个答案,但没有发现任何改进。如果我以错误的方式进行操作,请提供任何意见并提出替代方案。
pig-udf - 我如何编写 UDF 以将第二列转换为大写
我想将下面 i/p 文件的第二列转换为大写,这是正确的代码吗?输入文件 - 101、ahmed 102、kranthi 103、sagar 104、mamtha
hadoop - 错误 2078:从 UDF 中捕获错误
我收到错误“错误 2078:从 UDF 捕获错误:com.Hadoop.pig.SplitRec [捕获异常处理输入行 [1]]”。我确定输入字符串超出范围,但我不确定哪个记录(记录号)导致问题。
我正在尝试创建日志以显示导致问题的记录,但我不确定是否要调试以打印/记录错误记录。
输入看起来像:
**PXW01YIN 12000099PGEN PXW01YINFFFFFFFF PXW01YINIMFGUIPY04301Y301 JFK 00888JFK 008880001 PIMF 0000N/ACTRC5/TXN08/SCR301\/SEQ/TEX021\@
PXW01PIN 12000099PGEN PXW01PINFFFFFFFF PXW01PINIMFGUIAV04301P301 PER 03615PER 036150001 PIMF 0000N/ACTRCK/TXN08/SCR301\/SEQ/TEX021\@**
以上行是两条记录,我已经测试过它们(使用 LIMIT),它们没有引起问题。我有超过 150kb 的输入数据。
我正在使用的脚本:
java - Pig Latin 中的用户定义函数
我正在使用 Java 在 Hadoop 环境中为 Pig Latin 创建用户定义函数 UDF。我想创建多个输出文件。我试图创建一个 Java 程序来输出这些 CSV 文件,如下所示:
但这不起作用。有没有其他方法可以做到这一点,无论是通过 Java 还是 Pig Latin 本身?
apache-pig - 阅读 pig scheme/header 以了解元组中字段的顺序
有没有办法将 .pig_schema 或 .pig_header 值访问到 pig java udf 中,以便我知道正在解析哪个字段名。
我处理PigStorage
由不同流程生成的输出,并且它不断变化。由于这些更改,我想尽可能少地进行更改。
例如:以前的格式喜欢 -{name:chararray, age:INT, salary:DOUBLE}
当前格式看起来像 - {sex:chararray, name:chararray, age:INT, salary:Double }
。
在我的 udf 中,我只对姓名和薪水感兴趣,但它们作为我的输入给出的顺序可能会有所不同,如上所述。
apache-pig - Pig udf 针对级联内置函数的效率
我是 PIG 脚本的新手,我有一个要求,我需要在最多 10 个条件下执行 Ladder If Else,据我所知,我们只有三元运算符,所以我想写一个 UDF,级联三元运算符如下所示:-(条件:语句1?(条件:语句2?语句3))
数据大小为数千万行,我是否应该继续努力为我的要求创建 UDF。
最后,如果它导致性能问题,那么付出努力是没有意义的。
据我所知,将针对考虑的每一行调用 UDF,并且对一百万条记录的递归调用是一个严重的开销。
java - PigStorage 是如何工作的?
我是新手Apache Pig
,我想知道一些关于它如何将数据记录存储到 FS 的处理细节。
1.对于每个Tuple
,在哪里PigStorage
将它们变成可读的String
?
2.我可以调用那个stringfy函数供我自己使用吗?
谢谢~
java - Apache Pig UDF 无输出
我在多节点Hadoop
集群上使用 Apache Pig 0.15.0。我将我的一些工作放在用 Java 编写的 Pig UDF 中。但是,在说他们成功完成之后Pig
,Hadoop
我的 UDF 没有任何输出。而且,有些代码根本没有生效。我使用System.out.println()
and System.out.flush()
,但我的屏幕上仍然没有输出。这可能是什么原因?在这种情况下如何调试?