问题标签 [hive-udf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

63 问题

0 投票

4 回答

4204 浏览

sql - 我们如何在不引用表格的情况下测试 HIVE 功能

我想了解 UDF WeekOfYear 以及它如何从第一周开始。我不得不人为地打一个表并运行查询。我不想打表并计算值。其次我可以看一下UDF源代码吗？

2014-01-08T23:00:41.297

0 投票

0 回答

394 浏览

python - 使用 UDF 将动态（更改）JSON 转换为 Hive 架构

我有一个具有以下结构的 JSON 文件：

几点：

从上面的结构中需要创建hive schema。
JSON 结构可以动态变化。对于 JSON 结构的每次更改。需要重新生成配置单元模式。
我试过了，使用 Python 的 JSON 库；但没有多大用处。我无法获得标签名称，它可以用作配置单元模式的字段名称。
想要将生成 JSON 的过程自动匹配到 Hive 模式。
探索Python JSON Encoder、Decoder类；解析 JSON 并放入自己的逻辑来创建 Hive 模式。但是没有很好的例子可以使用 JSON Encoder, Decoder 类。
最后，想把所有东西都放在 Python UDF 的形式中。我也喜欢任何 Java UDF 替代品。

注意：上面的 JSON 可以使用http://jsonlint.com/构建

python hive-udf

2015-02-05T19:03:03.377

0 投票

2 回答

42208 浏览

hadoop - 如何将日期字符串从 UTC 转换为 HIVE 中的特定时区？

我的 Hive 表有一个包含 UTC 日期字符串的日期列。我想获取特定 EST 日期的所有行。

我正在尝试执行以下操作：

我想知道是否有 ConvertToESTTimeZone 的功能，或者我该如何实现？

我尝试了以下但它不起作用（我的默认时区是 CST）：

提前致谢。

更新：

我明白了

hadoop timezone hive bigdata hive-udf

2015-02-13T20:59:55.847

0 投票

0 回答

275 浏览

csv - 更改具有数组的 Hive 外部表输出支持 postgresql 兼容 csv 文件的列

我很难使用具有外部表定义的配置单元 sql 生成一个与配置单元列类型为配置单元列类型的 postgresql 兼容 tsv 格式。

使用 Hive，我可以指定使用分隔符/集合项终止在 csv 中写入数组字段。

但是 postgresql COPY 命令需要格式为 tsv：{data1,data2,data3}

csv hadoop hive external-tables hive-udf

2015-03-05T13:49:53.477

0 投票

2 回答

2100 浏览

hadoop - 自定义配置单元 UDF 中的覆盖评估方法

我是为 hive 编写自定义 udf 的新手。我已经尝试成功地为 toupper 函数编写自定义 udf。

我必须根据不同的输入参数编写不同的评估实现。

我的查询是 - 我如何在一个类中编写多个评估方法。我需要为不同的方法编写不同的类吗？如果我在单个类中编写这些覆盖的方法，那么 Hive 将如何在包含相同类型参数的不同方法之间有所不同。

请指导我正确的方法。

hadoop hive user-defined-functions hive-udf

2015-03-23T12:21:04.927

0 投票

1 回答

616 浏览

hadoop - Hive - 可以获得目录中文件部分的总大小吗？

背景：

我在 HDFS 目录中有一些 gzip 文件。这些文件以 yyyy-mm-dd-000001.gz、yyyy-mm-dd-000002.gz 等格式命名。

目标：

我想构建一个配置单元脚本，它生成一个包含以下列的表：第 1 列 - 日期 (yyyy-mm-dd)，第 2 列 - 总文件大小。

具体来说，我想总结一下特定日期所有 gzip 文件的大小。总和将是第 2 列中的值和第 1 列中的日期。

这可能吗？是否有任何内置函数或 UDF 可以帮助我处理我的用例？

提前致谢！

hadoop hive hdfs hiveql hive-udf

2015-04-10T20:39:35.603

0 投票

2 回答

17962 浏览

hadoop - Hive collect_list() 不收集 NULL 值

我正在尝试收集带有NULLs 的列以及该列中的一些值......但collect_list忽略NULLs 并仅收集其中包含值的列。有没有办法检索NULLs 以及其他值？

实际 col3 值

结果 col3 值

我希望[0.9, NULL, NULL, 0.7, 0.6]在应用 collect_list 后有一个类似这样的配置单元解决方案。

hadoop hive hive-udf

2015-08-12T04:56:20.967

0 投票

1 回答

1169 浏览

hive - 如何使用 HIVE UDF 读取 AWS S3 文件内容

我在 Amazon S3 中有一个文本文件，我想在我的 Hive UDF 中读取文件的内容。

尝试了以下代码，但不起作用。

UDF 代码：

蜂巢查询：

有什么帮助吗？

hive hive-udf

2016-02-17T09:59:42.147

0 投票

2 回答

672 浏览

hive - 如何在 UDF 初始化方法中读取配置单元配置变量

我正在尝试在初始化方法中读取配置单元 conf 变量，但不起作用，请问有什么建议吗？

我的UDF课程：

hive hive-udf

2016-02-29T08:16:37.600

0 投票

1 回答

373 浏览

hadoop - Hive UDF 全局变量

谁能告诉我是否有任何方法可以在 Hive UDF 中使用全局变量？

我正在尝试找出以下问题的解决方案。场景如下。我有三种类型的文件

一个有 4 列的文件（假设列名是 A、B、C 和 D）
具有 2 列（B、D）的文件
具有 2 列（B，C）的文件

我会将所有三个文件都转换为标准格式（文件 1 格式 - 4 列的输出）。要转换为标准格式，我需要参考文件第一行中的标题记录。因此，如果我的输入文件是 256MB 并且调用了多个映射器，是否有任何方法可以使每个映射器都引用一个全局变量（标头信息）。
简而言之，有没有办法为调用我的 Hive UDF 的所有映射器提供一个公共变量？

注意：UDF 将通过读取完整的行然后将其写入下一个表的 HDFS 位置来在单个列表上运行。

hadoop hive hive-udf

2016-04-01T10:23:40.977

1 2 3 4 5 6 7 8 9 10

问题标签 [hive-udf]

Reference