问题标签 [hive-query]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
oracle - Hive 查询语言中的主键和索引是否可行?
我们正在尝试将 oracle 表迁移到配置单元并处理它们。目前 oracle 中的表有primary key
,foreign key
和unique key
约束。
我们可以在蜂巢中复制相同的内容吗?
我们正在对如何实现它进行一些分析。
java - Hive 查询 executeQuery() 在 java JDBC 代码中挂起
我创建了一个 UDTF,并在其中运行 java hive JDBC 代码以执行配置单元查询并获取结果。我能够成功连接到 hive2 服务器,但代码无限期挂起,没有任何异常statement.executeQuery()
。可能是什么原因?相同的代码在独立的 eclipse 类中运行,但在作为 udtf 部署在 hadoop 集群中时手。
date - 带日期的 Hive 查询
我有一个小问题,我想用 hive 查询过滤日期,但输出为空。我的专栏是字符串类型
我试过这个:
我的专栏日期的格式是01/08/19 18:00:00
sql - 使用 Hive HQL 查找一个月的最后一个星期日“日期”和“日期”
我正在尝试使用 HQL 查找一个月的最后一个星期日的日期。
我正在尝试以下代码:
但是上面的代码给出了表格的最后一天。
我得到的输出是:
预期的输出是:
有人可以在这里帮助我吗?
sql - Hive Distinct Query 需要更多时间
我有分区表,表结构
目前我们有大约 17000 个分区,每个分区至少有大约 50k 条记录。
下面的查询需要更多时间 ~ 90Mins
有没有办法可以减少执行时间,提前谢谢
hive - 从 Hive 中的多个表中选择 count(*)
我在 2 个不同的模式中有同名的表。我想要做的是在格式的 2 个表中进行计数比较
表名:Count1:Count2
如何通过 Hive 查询实现这一点?
date - 在 Hive 中获取最后一个工作日的第 15 个日期-yyyyMMdd(仅周末除外)
我有一个带有日期列的表(字符串格式为 yyyyMMdd的日期)。我的要求是设计一个逻辑,在不使用 UDF 或 shell 脚本的情况下,从“日期列值等于前 15 个工作日的日期”(仅不包括周六和周日)的表中获取数据。例如今天是 2020 年 2 月 21 日;逻辑应该产生一个输出:20200203。
hive - 如何为 hive 查询子作业设置 mapreduce 作业名称?
我们的 hive 查询创建了 9 个 map-reduce 作业和 17 个阶段(当我运行 EXPLAIN 命令时,输出显示 17 个阶段和阶段依赖项)。每个儿童工作都有相同的mapreduce.job.name
为了区分这些子作业,有什么方法可以设置mapreduce.job.name
内部配置单元查询,以便对于每个作业,我可以看到作业的阶段。所有 9 个子作业的现有作业名称:
有没有办法让我在工作跟踪器中获取工作名称
我参考了如何控制蜂巢作业名称但保留阶段信息?但它没有按预期工作。我尝试mapreduce.job.name
在查询中设置多个具有不同值的位置,但所有子作业都采用我分配的最后一个值。假设我的查询文件是 hiveQuery.q
蜂巢查询.q
设置 hiveconf:mapreduce.job.name="唯一名称 1"。
... --
一些查询语句
...
设置 hiveconf:mapreduce.job.name="unique name 2"。
... --
一些查询语句
...
设置 hiveconf:mapreduce.job.name="unique name 3"。
对于上述查询,所有 9 个 mapreduce 作业都"unique name 3"
作为作业名称。我也尝试过hive.query.name
,hive.query.string
但那些没有帮助。这可能吗?有谁知道如何实现这一目标?
hadoop - 如何插入配置单元表,按从临时表读取的日期分区?
我有一个 Hive 临时表,没有任何具有所需数据的分区。我想选择这些数据并插入到另一个按日期分区的表中。我尝试了以下技术但没有运气。
源表架构
目的地表:
查询插入目标表:
错误
第二
错误 :
hadoop - Hive Query 无法识别表达式规范中 'select' 'max' '(' 附近的输入
我在蜂巢中有一张桌子,结构如下
我想获得最新的日期(年和月)。
在尝试执行查询select max(s1.month) from stock_summary s1 where s1.year = (select max(s2.year) from stock_summary s2) t;
时,我收到以下错误
` 我正在使用配置单元 1.1.0。
有人可以让我知道为什么会失败吗?