问题标签 [hive-udf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1072 浏览

hadoop - Hive UDF 从分布式缓存中获取值,不适用于外部查询

我们用 Java 编写了一个 Hive UDF,以从添加到分布式缓存中的文件中获取值,该文件可以完美地从如下选择查询中运行:

查询 1。

但是在尝试从其输出创建表时不起作用。喜欢 :

查询 2。

它甚至不能从外部选择工作。喜欢 :

查询 3。

下面是我的 UDF 的评估函数:

在 Hive 中添加 jar、文件和创建 Hive 临时函数,如:

当我运行查询 1 时,我从 Map 获得预期值,但是当我运行查询 2 和 3 时,我得到“NA”。当我为查询 2 和 3 返回 Map.size() 代替“NA”时,它为零。

我很困惑为什么外部选择或创建表无法获取 coutryMap() 值以及为什么 Map 的大小变为零。

0 投票
1 回答
118 浏览

hadoop - 如何编写配置单元 UDF

我对如何使用 UDFS 感到很困惑。是否可以用 UDF 替换下面的 bash 脚本功能?

请帮忙 !!我已经看到了如何反转字符串或更改大小写的 UDF。但我无法弄清楚如何为这些我们重用查询结果的条件情况编写 HIVE UDF。

还有其他更好的方法来处理这类查询流吗?

0 投票
1 回答
505 浏览

java - Hive ua 解析器 UDF 给出 IOException

String我已经以格式存储了用户代理字符串。

我想从用户代理字符串中提取浏览器。所以我使用了ua-parser-java库。

Hive UDF 代码如下:

它给了我以下例外。

尝试使用String而不是Text但得到相同的异常。如果没有配置单元,此代码可以完美运行。更新:hadoop 或 hive 的日志中没有关于此的详细信息。

0 投票
1 回答
284 浏览

hive - GeoLite2 免费数据库是否有任何请求限制?(蜂巢 UDF)

我从链接下载了免费的 geoiplite 数据库。我将在hive-geo-ip-udf中使用它。

更新:

对于第 64 个条目,我得到了FAILED: UnsupportedOperationException null

0 投票
3 回答
3180 浏览

hadoop - 在 Hive 中添加 JAR 会给出错误,因为“查询返回非零代码:1,原因:/user/hive/warehouse/abc.jar 不存在。”

我创建了一个 UDF 并将 jar 导出为 abc.jar。

将 jar 复制到 /user/hive/warehouse 的 hdfs 中。

现在,我收到以下错误:

当我这样做时,我可以在/user/hive/warehouse路径hadoop fs -ls /user/hive中看到abc.jar 。

我在哪里做错了,解决方案是什么?

0 投票
2 回答
1810 浏览

hadoop - 用java编写的hive udf、udaf、udtfs如何在eclipse之类的ide中调试?

例如,用于调试 pig udfs 这工作:http
://ben-tech.blogspot.ie/2011/08/how-to-debug-pig-udfs-in-eclipse.html我有一个配置单元脚本,我在其中使用我的udaf 失败了,所以我想单步执行 udf 代码。

0 投票
3 回答
1650 浏览

hive - 如何在配置单元中为结构字段创建视图

第 1 步:我编写了一个 UDF,它将形成 2 个或更多 Struct 列,如汽车、自行车、公共汽车。UDF 还从称为“详细信息”的其他视图中获取一些信息。

我正在使用此 UDF 创建视图“车辆”,如下所示

第 2 步:我想将每个结构列分解为另一个视图。当我尝试以下查询时,我收到类似“AS 子句中提供的别名数与预期的 UDTF 输出的列数不匹配”之类的错误

注意:如果我有只有汽车结构的 UDF,工作正常。仅当 UDF 包含多个 STRUCT 时才面临问题。

有什么帮助吗?

0 投票
0 回答
1139 浏览

python - 如何在没有 hive udf 的情况下计算 Apache Spark 中数据框中所有列的百分位数

我使用的是 Spark 1.6.1 独立集群,有 6 个工作人员(每个节点 8 个内核和 5G 执行程序内存)。

我的数据框包含 13 列和行。我想采用每列的第 99.5 个百分位数,并按照https://mail-archives.apache.org/mod_mbox/spark-user/201510.mbox/%3CCALte62wQV68D6J87EVq6AD5-T3D0F3fHjuzs+1C5aCHOUUQS8w@mail中的建议使用了 percentile_approx hive UDAF .gmail.com%3E。我正在尝试将 13 列的百分位值收集到字典中。收集操作仅显示 1 个任务,并且该任务空闲很长时间,之后我终止了该作业。

PYSPARK 代码:

在此处输入图像描述

标量代码:

var query=""
for (col <- mergedKpis.columns.tail) {

}
sqlContext.sql("select "+query.replaceFirst(",","")+" from input_table").collect()

Scala 代码也显示了与 python 代码相同的 UI。

我尝试对 15MB 文件中的一列运行相同的查询,耗时 6 秒,时间随着文件大小非线性增加。

我找到了一个函数来在 计算百分位找到 RDD 的百分位 但是我不能将每一列转换为 RDD 并使用 computePercentile()。

谁能告诉我如何解决这个问题?

0 投票
0 回答
565 浏览

hive - Hive UDF 包含查询语句

我在写一些UDF时遇到了一个问题,我在网站上搜索了相关的帖子,但恐怕我还没有任何有用的想法。问题是:我要在UDF中执行一条SQL语句,然后打印查询结果。这是我的代码:

这是错误消息:

任何想法将不胜感激!提前致谢!

0 投票
0 回答
646 浏览

hive - 接受字符串并返回 Map 的函数所需的 Hive GenericUDF Java 代码模板

我正在尝试为 Hive 编写 GenericUDF。当我添加 JAR 并尝试创建指向该类的临时函数时,出现错误,因此函数创建不成功。有人可以为 GenericUDF 函数提供 Java 代码模板,该函数接受一个 String 类型的参数并返回一个 Map 类型的对象。关于 Object Inspector 类有很多混淆,所以如果有人为我提供这个函数的输入类型和返回类型的非常基本的模板,那将有很大帮助。

所以我的Java代码在这里: -

这就是我尝试在 Hive 中针对 JAR 创建函数时发生的情况:-