问题标签 [hive-udf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
4204 浏览

sql - 我们如何在不引用表格的情况下测试 HIVE 功能

我想了解 UDF WeekOfYear 以及它如何从第一周开始。我不得不人为地打一个表并运行查询。我不想打表并计算值。其次我可以看一下UDF源代码吗?

0 投票
0 回答
394 浏览

python - 使用 UDF 将动态(更改)JSON 转换为 Hive 架构

我有一个具有以下结构的 JSON 文件:

几点:

  1. 从上面的结构中需要创建hive schema。

  2. JSON 结构可以动态变化。对于 JSON 结构的每次更改。需要重新生成配置单元模式。

  3. 我试过了,使用 Python 的 JSON 库;但没有多大用处。我无法获得标签名称,它可以用作配置单元模式的字段名称。

  4. 想要将生成 JSON 的过程自动匹配到 Hive 模式。

  5. 探索Python JSON Encoder、Decoder类;解析 JSON 并放入自己的逻辑来创建 Hive 模式。但是没有很好的例子可以使用 JSON Encoder, Decoder 类。

  6. 最后,想把所有东西都放在 Python UDF 的形式中。我也喜欢任何 Java UDF 替代品。

注意:上面的 JSON 可以使用http://jsonlint.com/构建

0 投票
2 回答
42208 浏览

hadoop - 如何将日期字符串从 UTC 转换为 HIVE 中的特定时区?

我的 Hive 表有一个包含 UTC 日期字符串的日期列。我想获取特定 EST 日期的所有行。

我正在尝试执行以下操作:

我想知道是否有 ConvertToESTTimeZone 的功能,或者我该如何实现?

我尝试了以下但它不起作用(我的默认时区是 CST):

提前致谢。

更新:

我明白了

0 投票
0 回答
275 浏览

csv - 更改具有数组的 Hive 外部表输出支持 postgresql 兼容 csv 文件的列

我很难使用具有外部表定义的配置单元 sql 生成一个与配置单元列类型为配置单元列类型的 postgresql 兼容 tsv 格式。

使用 Hive,我可以指定使用分隔符/集合项终止在 csv 中写入数组字段。

但是 postgresql COPY 命令需要格式为 tsv:{data1,data2,data3}

0 投票
2 回答
2100 浏览

hadoop - 自定义配置单元 UDF 中的覆盖评估方法

我是为 hive 编写自定义 udf 的新手。我已经尝试成功地为 toupper 函数编写自定义 udf。

我必须根据不同的输入参数编写不同的评估实现。

我的查询是 - 我如何在一个类中编写多个评估方法。我需要为不同的方法编写不同的类吗?如果我在单个类中编写这些覆盖的方法,那么 Hive 将如何在包含相同类型参数的不同方法之间有所不同。

请指导我正确的方法。

0 投票
1 回答
616 浏览

hadoop - Hive - 可以获得目录中文件部分的总大小吗?

背景:

我在 HDFS 目录中有一些 gzip 文件。这些文件以 yyyy-mm-dd-000001.gz、yyyy-mm-dd-000002.gz 等格式命名。

目标:

我想构建一个配置单元脚本,它生成一个包含以下列的表:第 1 列 - 日期 (yyyy-mm-dd),第 2 列 - 总文件大小。

具体来说,我想总结一下特定日期所有 gzip 文件的大小。总和将是第 2 列中的值和第 1 列中的日期。

这可能吗?是否有任何内置函数或 UDF 可以帮助我处理我的用例?

提前致谢!

0 投票
2 回答
17962 浏览

hadoop - Hive collect_list() 不收集 NULL 值

我正在尝试收集带有NULLs 的列以及该列中的一些值......但collect_list忽略NULLs 并仅收集其中包含值的列。有没有办法检索NULLs 以及其他值?

实际 col3 值

结果 col3 值

我希望[0.9, NULL, NULL, 0.7, 0.6]在应用 collect_list 后有一个类似这样的配置单元解决方案。

0 投票
1 回答
1169 浏览

hive - 如何使用 HIVE UDF 读取 AWS S3 文件内容

我在 Amazon S3 中有一个文本文件,我想在我的 Hive UDF 中读取文件的内容。

尝试了以下代码,但不起作用。

UDF 代码:

蜂巢查询:

有什么帮助吗?

0 投票
2 回答
672 浏览

hive - 如何在 UDF 初始化方法中读取配置单元配置变量

我正在尝试在初始化方法中读取配置单元 conf 变量,但不起作用,请问有什么建议吗?

我的UDF课程:

0 投票
1 回答
373 浏览

hadoop - Hive UDF 全局变量

谁能告诉我是否有任何方法可以在 Hive UDF 中使用全局变量?

我正在尝试找出以下问题的解决方案。场景如下。我有三种类型的文件

  1. 一个有 4 列的文件(假设列名是 A、B、C 和 D)
  2. 具有 2 列(B、D)的文件
  3. 具有 2 列(B,C)的文件

我会将所有三个文件都转换为标准格式(文件 1 格式 - 4 列的输出)。要转换为标准格式,我需要参考文件第一行中的标题记录。因此,如果我的输入文件是 256MB 并且调用了多个映射器,是否有任何方法可以使每个映射器都引用一个全局变量(标头信息)。
简而言之,有没有办法为调用我的 Hive UDF 的所有映射器提供一个公共变量?

注意:UDF 将通过读取完整的行然后将其写入下一个表的 HDFS 位置来在单个列表上运行。