问题标签 [hive-configuration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
432 浏览

hadoop - 蜂巢中的 maxCombinedSplitSize 属性?

猪中有一个属性名为

' pig.maxCombinedSplitSize ' - 指定单个映射要处理的数据的大小(以字节为单位)。较小的文件被合并,直到达到这个大小。

hive中是否有类似的属性来指定单个地图要处理的数据大小?

我正在尝试以下命令,但它不起作用。

有什么建议么?

0 投票
2 回答
4217 浏览

hadoop - Hive 使用来自嵌套子目录的输入创建表

我在 HDFS 中的文件路径中有 Avro 格式的数据,例如:/data/logs/[foldername]/[filename].avro. 我想在所有这些日志文件上创建一个 Hive 表,即所有形式的文件/data/logs/*/*。(它们都基于相同的 Avro 模式。)

我正在使用 flag 运行以下查询mapred.input.dir.recursive=true

LOCATION除非我更改为嵌套较少,即'hdfs://.../data/[foldername]/'使用某个文件夹名称,否则该表最终为空。对于LOCATION.

我希望能够从所有这些不同的 [文件夹名] 文件夹中获取数据。如何使递归输入选择在我的嵌套目录中走得更远?

0 投票
2 回答
3557 浏览

hive - Hive 属性未设置

我在 hive-site.xml 中设置以下属性:

但是,如果我在配置单元控制台中运行show conf "hive.exec.dynamic.partition.mode";,我会得到strict

有没有人知道为什么我在 hive-site.xml 中的配置属性没有覆盖默认属性?此外,我还尝试使用set命令从控制台设置此属性,但也没有运气。

0 投票
2 回答
2959 浏览

amazon-web-services - 在 Amazon EMR 中设置配置单元属性?

我正在尝试使用 Amazon EMR 运行 Hive 查询,并试图让 Apache Tez 也可以使用它,据我所知,这需要根据hive 站点hive.execution.engine设置属性?tez

我知道 hive 属性可以设置为set hive.{...}通常或在 中hive-site.xml,但我不知道其中任何一个如何与/在 Amazon EMR 中进行交互。

那么:有没有办法在 Amazon EMR 中设置 Hive 配置属性,如果可以,如何设置?

谢谢!

0 投票
1 回答
9456 浏览

hadoop - 在 Hive 中使用保留字

我正在将数据迁移到 Hive 1.2,并且我意识到,默认情况下,我不再被允许使用保留字作为列名。如果要使用保留字,则需要显式设置以下设置:

我的问题是,更改此默认值是否会导致任何意外问题?在更改之前我应该​​注意哪些问题?

顺便说一句,此票证中记录了此更改:https ://issues.apache.org/jira/browse/HIVE-6617

0 投票
1 回答
593 浏览

hadoop - 避免用户覆盖 hadoop 2 中的默认 mapred 属性

如何避免用户在提交 hive 作业时覆盖 hadoop 配置文件的默认属性?

示例:

mapred-site.xml:

用户在配置单元作业中使用以下属性来覆盖

0 投票
2 回答
7955 浏览

hive - 看hive.exec.dynamic.partition值的hive命令是什么

我们知道 set 命令是用来给属性设置一些值的

但是我们如何读取上述属性的当前值

我尝试了以下命令,它不起作用

有人可以帮助获取正确的配置单元命令来读取上述属性的当前值。

0 投票
1 回答
652 浏览

hadoop - 可以从文件中加载 hiveconf 变量吗?(与 HiveQL 文件分开)

我经常有一大块 HiveQL,我想对某些变量使用不同的设置多次运行它。

一个简单的例子是:

然后通过hive -f myfile.sql > myout.log

后来,我想更改变量并重新运行。我还想记录每次运行时变量的值。

因此,我目前制作了 HiveQL 文件的副本,这些副本除了变量值之外是相同的。然而,这显然很容易出错,因为如果我需要更改实际的 HiveQL,那么我必须在每个文件中更改它。

理想情况下,我可以将所有设置存储为 JSON 文件(或其他文件),并让我的 HiveQL 文件完全动态。有没有办法做到这一点?

0 投票
1 回答
5625 浏览

hadoop - 为什么 Hive 中的 Fetch 任务比 Map-only 任务更快?

可以使用 hivehive.fetch.task.conversion参数在 Hive 中启用 Fetch 任务以进行简单查询,而不是 Map 或 MapReduce。

请解释为什么 Fetch 任务的运行速度比 Map 快得多,尤其是在做一些简单的工作时(例如select * from table limit 10;)?在这种情况下,还有哪些仅地图任务正在执行?就我而言,性能差异要快 20 倍以上。这两个任务都应该读取表数据,不是吗?

0 投票
1 回答
2113 浏览

sql - HIVE select count(*) 非 null 返回比 select count(*) 更高的值

我目前正在使用 Hive 进行一些数据探索,无法解释以下行为。假设我有一个带有 master_id 字段的表(名为 mytable)。

当我计算得到的行数时

如果我想计算具有非空 master_id 的行数,我会得到一个更高的数字

此外,master_id 似乎永远不会为空。

我无法解释如何添加 where 语句最终会增加行数。有没有人有任何暗示来解释这种行为?

谢谢