问题标签 [hiveql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 在我运行 Hive 的任何地方创建 metastore_db
文件夹metastore_db
是在我运行 Hive 查询的任何目录中创建的。有没有办法metastore_db
在一个定义的位置只有一个并阻止它在所有地方被创建?有什么关系hive.metastore.local
吗?
timestamp - 如何使用列类型 Timestamp 创建外部 Hive 表
我想从 HDFS 中包含 epoch 的文本文件创建一个外部 Hive 表。假设文件位于/user/me/test.txt
. 这是文件内容:
我安装了 Hive 0.8.1 并且应该能够使用类型 Timestamp,所以我创建了表:
然后我查询了表:
并得到以下异常:
创建外部表时我错过了什么吗?我很困惑,因为 Hive(自 0.8 起)在第二个支持 Unix 纪元格式的时间戳:https ://cwiki.apache.org/Hive/languagemanual-types.html#LanguageManualTypes-Timestamps
hadoop - Hadoop 排名列
所以我有这些我正在使用的特定列:
customer_token
、merchant_id
、merchant_category_code
和transaction_amount
。
我目前的查询是这样的:
我想在上面的查询中添加一个部分,在结果中,merchant_category_code 根据每个特定的交易金额分为不同的列merchant_category_code
。结果如下所示:
customer_token、count(transaction_amount)、sum(transaction_amount)、count(merchant_category_code中的transaction_amount排名第1)、count(merchant_category_code中的transaction_amount排名第2)、count(merchant_category_code中的transaction_amount排名第3)等...
然后这个:
customer_token、count(transaction_amount)、sum(transaction_amount)、sum(merchant_category_code中的transaction_amount排名第1)、sum(merchant_category_code中的transaction_amount排名第2)、sum(merchant_category_code中的transaction_amount排名第3)等...
但我不知道如何做到这一点,或者是否有可能。
hive - 如何更新/删除 Hive 分区?
在Hive中将分区添加到外部表后,如何更新/删除它?
arrays - 如何访问数组中的最后一个元素?
在我的配置单元表中,该session
字段是格式如下的字符串:
ip-sessionID-userID
或者area-sessionID-userID
有 3 或 4 个字段以“”分隔-
,但 userID 始终是最后一个。
我想选择用户 ID,但如何访问最后一个字段?在python中,有类似的东西:
arr[-1]
但在蜂巢中,如何实现这一点?以下 SQL 似乎不正确。
select split(session,"\-")[-1] as user from my_table;
谢谢!
mapreduce - 将 Hive 中的一组行“减少”为另一组行
我正在使用 Hive 对我的空间数据库进行批处理。我的跟踪表如下所示:
我想将每个对象的每个纬度映射到一个数字(例如考虑映射匹配),但该算法需要考虑多个相邻数据点才能获得结果。例如,我需要对象 1 的所有 3 个数据点将这 3 个数据点中的每一个映射到一个数字。无法一一处理。
我正在考虑使用带有变换的 hive 使用 map-reduce,但我不知道该怎么做。有人可以帮我吗?
jdbc - 通过 jdbc 客户端使用 hive udf 时出现奇怪的错误
全部。我通过 jdbc 客户端使用 hive udf 时遇到了一个奇怪的错误。
我有一个 udf 可以帮助我将字符串转换为时间戳格式,称为reformat_date
. 我首先执行ADD JAR
and CREATE TEMPORARY FUNCTION
,两者都可以正常工作。
SQL 也可以在 hive cli 模式下解释,并且可以执行。但是当使用 jdbc 客户端时,我得到了错误:
我的 SQL 是
谢谢。
hive - Hive 中的日期比较
我正在使用 Hive,我有一个结构如下的表:
我需要找到t1
不到 180 天的每一行。即使表中存在与搜索谓词匹配的数据,以下查询也不会产生任何行。
在 Hive 中执行日期比较的适当方法是什么?
hive - 使用 Hue 将数据从本地计算机上传到 Hive DB
使用 Hive 和 Hue 的相对新手。
有没有办法使用 Hue 将保存到我的笔记本电脑的文件上传到 Hive 中的数据库表?我一直在翻阅书籍并在网上搜索,但没有找到任何答案。
哈利
hadoop - HiveQL UNION ALL
我有表_A:
表_B:
我想要的只是表格,结合起来:
这是我的 .hql:
我直接从 Edward Capriolo 等人的 Programming Hive 第 112 页编写代码。
我得到的错误,无论我尝试上述的表面上合理的变化,是
cannot recognize input near '.' 'id' ',' in select expression.
我尝试AS
在表名和别名之间使用星号,因为我想要两个表中的所有内容。同样的错误。我尝试了其他事情并得到了其他错误......我想要做的只是UNION
两张桌子。(我试过UNION
而不是UNION ALL
- 同样的错误)。