问题标签 [hive-configuration]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6213 浏览

hive - Hive Map-Join 配置之谜

有人可以清楚地解释两者之间的区别吗

配置参数?

还有这些相应的尺寸参数:

我的观察是,当在 Tez 上运行时, hive.auto.convert.join.noconditionaltask.size即使hive.mapjoin.smalltable.filesize设置的值小于小表的大小,Map-Join 也会在设置为足够高的值时工作。

为什么我们都需要

hive.auto.convert.joinhive.auto.convert.join.noconditionaltask

Apache 文档非常混乱。

0 投票
1 回答
1367 浏览

python - pyhive:使用 pyhive 设置 hive 属性

我有一个复杂的配置单元查询,其底层连接是笛卡尔积。所以我需要设置以下属性。但是当我使用 pyhive 执行这些属性时,它无法执行。我收到一个错误,要求为笛卡尔设置属性。

set1 = '''SET hive.strict.checks.cartesian.product=false'''

set2 = '''SET hive.mapred.mode=strict'''

0 投票
1 回答
1982 浏览

hive - 如何减少查询中的容器数量

我有一个使用太多容器和太多内存的查询。(使用了 97% 的内存)。有没有办法设置查询中使用的容器数量并限制最大内存?该查询正在 Tez 上运行。

提前致谢

0 投票
1 回答
888 浏览

hive - 是否有任何用于设置“应用程序优先级”的参数?

我正在寻找一种方法来为配置单元中的任务设置应用程序优先级。提交任务时,我想为其设置高优先级(如 100)。这个参数可以在页面上看到:在此处输入图像描述 我正在寻找一个像'set mapreduce.map.memory.mb=4096;'这样的参数,所以我可以为这个任务设置优先级。

0 投票
1 回答
32 浏览

hive - 如何从具有相似命名模式的多个 Hive 表中查询数据?

这是我进入 Hive 的处女航。我有多个 Hive 表,例如名称如下的快照:

我有很多这样的快照表。现在,我需要构建一个脚本,该脚本将表名的一部分作为参数,并从所有类似命名的表中读取记录,并将所有这些表中的全部数据导出到单个 ORC 文件中。

如何在 Hive 中执行此操作?我不知道从哪里开始,因为我以前从未在 Hive 上工作过。有人可以帮帮我吗?提前谢谢各位。

0 投票
1 回答
1215 浏览

hadoop - hive 配置 hive.stats.fetch.partition.stats 不存在

我使用的是 hive 版本 3.1.1,当我尝试设置 hive.stats.fetch.partition.stats=true 时。我收到以下错误。hive.stats.fetch.partition.stats 在这个 hive 版本中不可用吗?

查询返回非零码:1、原因:hive配置hive.stats.fetch.partition.stats不存在。

0 投票
1 回答
464 浏览

hadoop - 会话期间何时设置 hive 参数?

我是新角色,其中一部分需要在托管和外部配置单元表中创建/插入数据。我们在 hive 会话开始时运行了几行“设置”参数,但我遇到了一些情况,例如,文件被合并为某些分区(文件数量很少),但不是其他人(许多较小的文件),似乎是随机的日子。

我的问题是:什么时候需要输入我所有的 Hive 设置参数?是否需要为我正在运行的每一个插入/命令/语句完成?还是在我启动 Hive 时仅在 Hive 会话开始时进行一次?

这些是我们一直在使用的标准设置参数:

0 投票
1 回答
129 浏览

apache - 为什么需要在配置单元中为动态分区设置属性

我想知道 hive 动态分区中的一件事。在进行动态分区时,我们必须设置以下属性

没有这些属性,我们就无法进行动态分区。

我想知道为什么需要这些?谁能告诉我为什么我们需要设置这个属性。

0 投票
1 回答
663 浏览

hive - Cloudera 发行版中的 hive-site.xml 在哪里?

我想知道 hive-site.xml 文件配置在 Cloudera 发行版中的位置。

主要是因为我想知道在哪里可以找到以下属性:

也许是因为我想覆盖其中的一些。

我知道我可以在 Hive shell 中覆盖它们,但这仅适用于当前会话。

或者我可以创建一个 .hiverc 文件来初始化 Hive 覆盖一些属性。

但我想知道这些属性在 Cloudera 发行版中的位置。

我正在尝试这个:

但在这些文件中我没有看到这样的属性

也许 cloudera 正在使用其他属性文件。

有人可以帮助我吗?

提前致谢

问候。

0 投票
1 回答
811 浏览

hadoop - Hive 分组中的减速器数量和计数(不同)

有人告诉我 count(distinct ) 可能会导致数据倾斜,因为只使用了一个 reducer。

我使用一个包含 50 亿个数据和 2 个查询的表进行了测试,

查询一:

查询 B:

实际上,查询 A 大约需要 1000-1500 秒,而查询 B 需要 500-900 秒。结果似乎在意料之中。

但是,我意识到这两个查询都使用370 mappersand1 reducers和 thay 几乎都有same cumulative CPU seconds. 这意味着它们没有基因差异,并且时间差异可能是由集群负载引起的。

我很困惑为什么所有人都使用一个 1 减速器,我什至尝试过mapreduce.job.reduces但它不起作用。顺便说一句,如果他们都使用 1 个减速器,为什么人们建议不要使用count(distinct ),而且数据倾斜似乎是无法避免的?