问题标签 [hive-configuration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
222 浏览

sql - Hive - 可以提取通用选项以在其他脚本中重用吗?

我有两个 Hive 脚本,如下所示:

脚本 A:

脚本 B:

我们在每个脚本开头设置的选项都是相同的。是否有可能以某种方式将它们提取到一个公共位置(例如,到一个 commonoptions.sql 中),以便我们的脚本如下所示:

脚本 A:

脚本 B:

理想情况下,我也想提取表格定义,这样我就有:

脚本 A:

脚本 B:

这样我就可以在一个地方管理 TableXYZ 定义。我没有使用 Hive CLI。我正在使用带有 Hive 步骤的 Amazon EMR。

0 投票
1 回答
286 浏览

hadoop - Hive 中的 JOIN 触发 MapReduce 中的哪种类型的 JOIN?

如果我有一个hive使用 JOIN 的查询,让我们在两个表的任何列上说 aLEFT OUTER JOIN或 an ,那么我怎么知道它在后端转换为哪种类型的 JOIN (即 Map-side JOIN 或 Reduce-side加入) ? INNER JOINONMapReduce

谢谢。

0 投票
1 回答
3873 浏览

hive - 使用一个文件在 Hive 中创建表

我正在使用以下命令在 Hive 中创建一个新表:

我的问题是,创建表后,它会为每个分区生成多个文件 - 而我只希望每个分区有一个文件。

如何在表格中定义它?谢谢!

0 投票
1 回答
700 浏览

hadoop - 覆盖 SemanticException [错误 10001]

我想改变 hive 数据库中的 1000s 表,但他们的一些表退出了一些没有。当我执行该 .sql 文件时,一旦发现表不存在,它就会从配置单元中退出。所以请帮助我覆盖或跳过那些表不存在于配置单元中的查询

0 投票
1 回答
1723 浏览

hadoop - Hive:合并配置设置不起作用

在 Hive 2.2.0 上,我使用查询从另一个大小为 1.34 GB 的源表填充一个 orc 表

该查询创建了包含 6 个 orc 文件的 TableORC 表,这些文件远小于 256MB 的块大小。

为了潜在地消除这一点,下面的配置被多个其他 stackoverflow 用户建议使用,并且 TableORC 被截断并再次执行查询 (1)。

这次的结果是 TableOrc 有 3 个 ORC 文件和 LOGS 显示 3 个额外的 MR 作业

我的问题是当配置设置设置为使用 128MB ( https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties )时,为什么 ORC 文件大小大于 128MB

0 投票
1 回答
1146 浏览

sql - 如何在 Hive 中防止 sql 无限制?

许多用户习惯于在 oracle/mysql 中使用 'select * from tables'

但我不应该让他们像在蜂巢中那样查询

有什么方法可以防止 hive 中的 full_table 扫描?

像触发器还是别的什么?

非常感谢!

0 投票
2 回答
672 浏览

join - Hive,小查询块join大表,为什么不能使用map join?

我有一个关于 hive mapjoin 的问题,我知道小表何时加入大表,使用 mapjoin 更好,但是当我得到这样的 sql 时

提示:
表b是大表,行:10000W+
表a是大表,行:10000W+
表b带有谓词只返回1000行,我认为这个sql将使用mapjoin,但执行计划是在reduce端加入......

谁能告诉我为什么??

0 投票
1 回答
635 浏览

hadoop - 在同一个 Hive 表上进行多次压缩

我有一个按年/月分区的 Hive 表,它包含至少 7 年的数据。我想要做的是通过 Snappy 压缩最新数据(比如最多 1 岁),但通过更好的压缩技术(如 gzip 等)压缩旧数据。我如何在 Hive 中执行此操作?

0 投票
2 回答
1436 浏览

hadoop - 避免使用 hive.optimize.sort.dynamic.partition 选项的单个文件

我正在使用蜂巢。

当我使用 INSERT 查询编写动态分区并打开 hive.optimize.sort.dynamic.partition option( SET hive.optimize.sort.dynamic.partition=true) 时,每个分区中总是只有一个文件。

但是如果我打开那个选项(SET hive.optimize.sort.dynamic.partition=false),我就会像这样出现内存不足异常。

我猜这个异常是因为reducer同时写入许多分区而引发的。但我找不到如何控制它。我关注了这篇文章,但它对我没有帮助。

我的环境是这样的:

  • AWS EMR 5.12.1
  • 使用 tez 作为执行引擎
  • hive 版本是 2.3.2,tez 版本是 0.8.2
  • HDFS 块大小为 128MB
  • 大约有 30 个动态分区要使用 INSERT 查询写入

这是我的示例查询。

0 投票
1 回答
296 浏览

hadoop - 在hadoop集群中每天限制清洁/ tmp是否正确

我们有 HDP 集群版本 – 2.6.4

集群安装在 redhat 机器版本 – 7.2

我们注意到 JournalNodes 机器(主机)上的以下问题

我们有 3 台 JournalNodes 机器,在 /tmp 文件夹下我们有数千个空文件夹

还有很多文件夹

内容为

/tmp 应根据配置文件每 10 天清除一次:

所以我们将保留时间减少到1d而不是10d以避免这个问题

然后确实/tmp 只有一天的文件夹内容

但我想问以下问题

可以将 Hadoop 集群中 /tmp 的保留时间配置为 1day 吗?

(我几乎肯定没问题,但想听听更多意见)

第二

为什么 HIVE 会生成数千个空文件夹作为 XXXX_resources ,

是否可以从 HIVE 服务解决它,而不是限制 /tmp 上的保留