问题标签 [hive-query]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 在 oozie 工作流中运行 intellij jar 时输出文件中的双引号
我创建了一个 oozie XML 工作流来从配置单元数据库表中获取数据并导出到 CSV 文件。Oozie 工作流具有以下三个操作
- 执行从 intelliJ 创建的 Jar 文件
- 成功邮件
- 失败邮件
Jar 文件是从 Maven 项目的 IntelliJ 生成的。在我正在使用random.hql
文件的项目中。random.hql
文件中存在以下查询
Oozie 工作流运行没有问题,并在输出目录中创建 CSV 文件。文件中的数据如下
我的问题是如何删除字符串开头和结尾的双引号(“)?
这可以在配置单元查询本身中完成吗?也让我知道是否有一种方法可以避免_C0_
输出文件中的列名()。
我只想输出如下:
apache-spark - 使用简单查询时,如何在 Hive-Spark 中修复“org.apache.hadoop.hive.ql.metadata.HiveException”?
我正在尝试对 Hive - Spark 引擎执行一个简单的查询:
我不断收到以下错误:
只有 ONT 时间它在 12 分钟后工作
表上的记录数约为 7K,我怀疑是配置问题,但我不确定是哪个参数。
我尝试过了:
- 重启 HIVE 服务器
- 增加了 Hive 服务器的超时时间
笔记:
使用:
没有group by....
工作就好了并返回以下内容:
sql - 将列的每个值除以表中的记录总数
能够将列的每个值除以表中的记录总数的查询
我尝试了以下查询
我看到一个错误并且无法执行查询。例如
总记录是 5 所以 (1/5)*100 = 20
hive - 我们如何使用 URL 将数据加载到配置单元中
我在 hive 中创建了一个表,我需要将 csv 数据加载到 hive 表中,但是数据在 github 中(我已经下载并测试它工作正常)我需要直接从 URL 加载数据是否可以将数据加载到来自 URL 的蜂巢
像这样的东西可以工作
datetime - Hive:查询未显示任何结果
我正在此表上编写查询以获取所有目录的大小总和,按日期为昨天的目录分组。我没有从以下查询中得到任何输出。
sql - 以 AB_ 为前缀的 ID 字段(示例:AB_00yyhhgdbdbd)
我正在尝试在配置单元表中选择特定字段并将结果保存在文本文件中。主要问题是,对于表中的一个字段,我想在特定列的所有行中添加前缀。目前,hive 表中该列的所有行都采用00yyhhgdbdbd
. 现在,我想编写我的 select 语句并在该行前加上AB_
. 在我的文本文件中,格式为AB_00yyhhgdbdbd
)。请问我该如何处理?
有什么函数可以在 hive 中处理这个问题?
sql - 如何在选择其他列时明确选择一列
我在蜂巢中有一张看起来像这样的桌子。我想要做的是运行一个查询,每 3 小时,我查看唯一的 workerUUID 并对它们进行一些操作。所以我想做的是现在到3小时前
- 捕获所有唯一的 workerUUID
Select * from these workerUUIDs
我正在使用 hive 运行此查询,并且该表每三到六个小时就有几百万个条目。编写此查询的最佳方法是什么?
基本上我想做类似的事情
为了进一步澄清,我想生成临时表,如
ETC
对于 3 小时间隔内生成的 workerUUID 的所有唯一值
hive - 如何使用 sqoop 将 Mysql 中的所有表导入到 hive 中用于 hive 中的特定数据库?
sqoop import-all-tables into hive with default database 工作正常,但 Sqoop import-all-tables into hive 指定数据库不起作用。
由于 --hive-database 已贬值,如何指定数据库名称
上面的代码在 /user/hive/warehouse/ 即默认目录下创建表
如何将所有表导入 /user/hive/warehouse/retail.db/
sql - Hive:无法使用限制执行联合查询
我正在尝试在配置单元中运行联合所有查询
但我明白了
我也试过
但我得到了
我究竟做错了什么 ?
apache-spark-sql - Spark SQL 性能调优
我在一个 ETL 开发团队工作,我们使用 Spark-SQL 来转换数据,方法是按顺序创建和处理几个中间临时视图,最后得到另一个临时视图,然后将其数据复制到目标表文件夹中。
然而,在某些情况下,即使在处理少量记录(<~10K)时,我们的查询也会花费过多的时间,并且我们会在各个方向上争先恐后地寻求帮助。
因此,我想详细了解和了解 Spark SQL 性能调优(例如幕后、架构,最重要的是 - 解释解释计划等),这将有助于我学习并为该主题奠定坚实的基础。我过去有使用 RDBMS(Teradata、Oracle 等)进行性能调整的经验。
因为,我对此很陌生,任何人都可以为我指出正确的方向,在那里我可以找到关于这个主题的书籍、教程、课程等。我搜索了互联网甚至几个在线学习平台,但找不到任何全面的教程或资源来学习这个。
请帮忙 !提前致谢..