问题标签 [hive-udf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 我们如何在不引用表格的情况下测试 HIVE 功能
我想了解 UDF WeekOfYear 以及它如何从第一周开始。我不得不人为地打一个表并运行查询。我不想打表并计算值。其次我可以看一下UDF源代码吗?
python - 使用 UDF 将动态(更改)JSON 转换为 Hive 架构
我有一个具有以下结构的 JSON 文件:
几点:
从上面的结构中需要创建hive schema。
JSON 结构可以动态变化。对于 JSON 结构的每次更改。需要重新生成配置单元模式。
我试过了,使用 Python 的 JSON 库;但没有多大用处。我无法获得标签名称,它可以用作配置单元模式的字段名称。
想要将生成 JSON 的过程自动匹配到 Hive 模式。
探索Python JSON Encoder、Decoder类;解析 JSON 并放入自己的逻辑来创建 Hive 模式。但是没有很好的例子可以使用 JSON Encoder, Decoder 类。
最后,想把所有东西都放在 Python UDF 的形式中。我也喜欢任何 Java UDF 替代品。
注意:上面的 JSON 可以使用http://jsonlint.com/构建
hadoop - 如何将日期字符串从 UTC 转换为 HIVE 中的特定时区?
我的 Hive 表有一个包含 UTC 日期字符串的日期列。我想获取特定 EST 日期的所有行。
我正在尝试执行以下操作:
我想知道是否有 ConvertToESTTimeZone 的功能,或者我该如何实现?
我尝试了以下但它不起作用(我的默认时区是 CST):
提前致谢。
更新:
我明白了
csv - 更改具有数组的 Hive 外部表输出支持 postgresql 兼容 csv 文件的列
我很难使用具有外部表定义的配置单元 sql 生成一个与配置单元列类型为配置单元列类型的 postgresql 兼容 tsv 格式。
使用 Hive,我可以指定使用分隔符/集合项终止在 csv 中写入数组字段。
但是 postgresql COPY 命令需要格式为 tsv:{data1,data2,data3}
hadoop - 自定义配置单元 UDF 中的覆盖评估方法
我是为 hive 编写自定义 udf 的新手。我已经尝试成功地为 toupper 函数编写自定义 udf。
我必须根据不同的输入参数编写不同的评估实现。
我的查询是 - 我如何在一个类中编写多个评估方法。我需要为不同的方法编写不同的类吗?如果我在单个类中编写这些覆盖的方法,那么 Hive 将如何在包含相同类型参数的不同方法之间有所不同。
请指导我正确的方法。
hadoop - Hive - 可以获得目录中文件部分的总大小吗?
背景:
我在 HDFS 目录中有一些 gzip 文件。这些文件以 yyyy-mm-dd-000001.gz、yyyy-mm-dd-000002.gz 等格式命名。
目标:
我想构建一个配置单元脚本,它生成一个包含以下列的表:第 1 列 - 日期 (yyyy-mm-dd),第 2 列 - 总文件大小。
具体来说,我想总结一下特定日期所有 gzip 文件的大小。总和将是第 2 列中的值和第 1 列中的日期。
这可能吗?是否有任何内置函数或 UDF 可以帮助我处理我的用例?
提前致谢!
hadoop - Hive collect_list() 不收集 NULL 值
我正在尝试收集带有NULL
s 的列以及该列中的一些值......但collect_list
忽略NULL
s 并仅收集其中包含值的列。有没有办法检索NULL
s 以及其他值?
实际 col3 值
结果 col3 值
我希望[0.9, NULL, NULL, 0.7, 0.6]
在应用 collect_list 后有一个类似这样的配置单元解决方案。
hive - 如何使用 HIVE UDF 读取 AWS S3 文件内容
我在 Amazon S3 中有一个文本文件,我想在我的 Hive UDF 中读取文件的内容。
尝试了以下代码,但不起作用。
UDF 代码:
蜂巢查询:
有什么帮助吗?
hive - 如何在 UDF 初始化方法中读取配置单元配置变量
我正在尝试在初始化方法中读取配置单元 conf 变量,但不起作用,请问有什么建议吗?
我的UDF课程:
hadoop - Hive UDF 全局变量
谁能告诉我是否有任何方法可以在 Hive UDF 中使用全局变量?
我正在尝试找出以下问题的解决方案。场景如下。我有三种类型的文件
- 一个有 4 列的文件(假设列名是 A、B、C 和 D)
- 具有 2 列(B、D)的文件
- 具有 2 列(B,C)的文件
我会将所有三个文件都转换为标准格式(文件 1 格式 - 4 列的输出)。要转换为标准格式,我需要参考文件第一行中的标题记录。因此,如果我的输入文件是 256MB 并且调用了多个映射器,是否有任何方法可以使每个映射器都引用一个全局变量(标头信息)。
简而言之,有没有办法为调用我的 Hive UDF 的所有映射器提供一个公共变量?
注意:UDF 将通过读取完整的行然后将其写入下一个表的 HDFS 位置来在单个列表上运行。