问题标签 [hive-configuration]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

2 回答

222 浏览

sql - Hive - 可以提取通用选项以在其他脚本中重用吗？

我有两个 Hive 脚本，如下所示：

脚本 A：

脚本 B：

我们在每个脚本开头设置的选项都是相同的。是否有可能以某种方式将它们提取到一个公共位置（例如，到一个 commonoptions.sql 中），以便我们的脚本如下所示：

脚本 A：

脚本 B：

理想情况下，我也想提取表格定义，这样我就有：

脚本 A：

脚本 B：

这样我就可以在一个地方管理 TableXYZ 定义。我没有使用 Hive CLI。我正在使用带有 Hive 步骤的 Amazon EMR。

2016-11-22T19:51:04.567

0 投票

1 回答

286 浏览

hadoop - Hive 中的 JOIN 触发 MapReduce 中的哪种类型的 JOIN？

如果我有一个hive使用 JOIN 的查询，让我们在两个表的任何列上说 aLEFT OUTER JOIN或 an ，那么我怎么知道它在后端转换为哪种类型的 JOIN （即 Map-side JOIN 或 Reduce-side加入）？ INNER JOINONMapReduce

谢谢。

hadoop hive mapreduce hive-configuration

2017-03-23T08:07:21.017

0 投票

1 回答

3873 浏览

hive - 使用一个文件在 Hive 中创建表

我正在使用以下命令在 Hive 中创建一个新表：

我的问题是，创建表后，它会为每个分区生成多个文件 - 而我只希望每个分区有一个文件。

如何在表格中定义它？谢谢！

hive create-table hive-partitions hiveddl hive-configuration

2017-07-23T12:56:36.393

0 投票

1 回答

700 浏览

hadoop - 覆盖 SemanticException [错误 10001]

我想改变 hive 数据库中的 1000s 表，但他们的一些表退出了一些没有。当我执行该 .sql 文件时，一旦发现表不存在，它就会从配置单元中退出。所以请帮助我覆盖或跳过那些表不存在于配置单元中的查询

hadoop hive hiveql hive-configuration

user9185088

2018-01-07T18:29:17.623

0 投票

1 回答

1723 浏览

hadoop - Hive：合并配置设置不起作用

在 Hive 2.2.0 上，我使用查询从另一个大小为 1.34 GB 的源表填充一个 orc 表

该查询创建了包含 6 个 orc 文件的 TableORC 表，这些文件远小于 256MB 的块大小。

为了潜在地消除这一点，下面的配置被多个其他 stackoverflow 用户建议使用，并且 TableORC 被截断并再次执行查询 (1)。

这次的结果是 TableOrc 有 3 个 ORC 文件和 LOGS 显示 3 个额外的 MR 作业

我的问题是当配置设置设置为使用 128MB ( https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties )时，为什么 ORC 文件大小大于 128MB

hadoop hive hiveql orc hive-configuration

2018-01-16T22:59:25.227

0 投票

1 回答

1146 浏览

sql - 如何在 Hive 中防止 sql 无限制？

许多用户习惯于在 oracle/mysql 中使用 'select * from tables'

但我不应该让他们像在蜂巢中那样查询

有什么方法可以防止 hive 中的 full_table 扫描？

像触发器还是别的什么？

非常感谢！

sql hadoop hive hive-configuration

2018-02-08T10:36:45.370

0 投票

2 回答

672 浏览

join - Hive，小查询块join大表，为什么不能使用map join？

我有一个关于 hive mapjoin 的问题，我知道小表何时加入大表，使用 mapjoin 更好，但是当我得到这样的 sql 时

提示：
表b是大表，行：10000W+
表a是大表，行：10000W+
表b带有谓词只返回1000行，我认为这个sql将使用mapjoin，但执行计划是在reduce端加入......

谁能告诉我为什么？？

join hive hive-configuration mapjoin

2018-02-20T14:33:51.817

0 投票

1 回答

635 浏览

hadoop - 在同一个 Hive 表上进行多次压缩

我有一个按年/月分区的 Hive 表，它包含至少 7 年的数据。我想要做的是通过 Snappy 压缩最新数据（比如最多 1 岁），但通过更好的压缩技术（如 gzip 等）压缩旧数据。我如何在 Hive 中执行此操作？

hadoop hive hiveql hadoop2 hive-configuration

2018-06-11T00:20:24.203

0 投票

2 回答

1436 浏览

hadoop - 避免使用 hive.optimize.sort.dynamic.partition 选项的单个文件

我正在使用蜂巢。

当我使用 INSERT 查询编写动态分区并打开 hive.optimize.sort.dynamic.partition option( SET hive.optimize.sort.dynamic.partition=true) 时，每个分区中总是只有一个文件。

但是如果我打开那个选项（SET hive.optimize.sort.dynamic.partition=false），我就会像这样出现内存不足异常。

我猜这个异常是因为reducer同时写入许多分区而引发的。但我找不到如何控制它。我关注了这篇文章，但它对我没有帮助。

我的环境是这样的：

AWS EMR 5.12.1
使用 tez 作为执行引擎
hive 版本是 2.3.2，tez 版本是 0.8.2
HDFS 块大小为 128MB
大约有 30 个动态分区要使用 INSERT 查询写入

这是我的示例查询。

hadoop hive hiveql reducers hive-configuration

2018-10-21T10:30:11.117

0 投票

1 回答

296 浏览

hadoop - 在hadoop集群中每天限制清洁/ tmp是否正确

我们有 HDP 集群版本 – 2.6.4

集群安装在 redhat 机器版本 – 7.2

我们注意到 JournalNodes 机器（主机）上的以下问题

我们有 3 台 JournalNodes 机器，在 /tmp 文件夹下我们有数千个空文件夹

还有很多文件夹

内容为

/tmp 应根据配置文件每 10 天清除一次：

所以我们将保留时间减少到1d而不是10d以避免这个问题

然后确实/tmp 只有一天的文件夹内容

但我想问以下问题

可以将 Hadoop 集群中 /tmp 的保留时间配置为 1day 吗？

（我几乎肯定没问题，但想听听更多意见）

第二

为什么 HIVE 会生成数千个空文件夹作为 XXXX_resources ，

是否可以从 HIVE 服务解决它，而不是限制 /tmp 上的保留

hadoop hive hdp hive-configuration

2018-12-20T09:54:28.473

1 2 3 4 5 6 7 8 9 10

问题标签 [hive-configuration]

Reference