问题标签 [hive-configuration]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

41 问题

0 投票

1 回答

6213 浏览

hive - Hive Map-Join 配置之谜

有人可以清楚地解释两者之间的区别吗

和

配置参数？

还有这些相应的尺寸参数：

和

我的观察是，当在 Tez 上运行时， hive.auto.convert.join.noconditionaltask.size即使hive.mapjoin.smalltable.filesize设置的值小于小表的大小，Map-Join 也会在设置为足够高的值时工作。

为什么我们都需要

hive.auto.convert.join和hive.auto.convert.join.noconditionaltask？

Apache 文档非常混乱。

2019-02-16T18:07:30.663

0 投票

1 回答

1367 浏览

python - pyhive：使用 pyhive 设置 hive 属性

我有一个复杂的配置单元查询，其底层连接是笛卡尔积。所以我需要设置以下属性。但是当我使用 pyhive 执行这些属性时，它无法执行。我收到一个错误，要求为笛卡尔设置属性。

set1 = '''SET hive.strict.checks.cartesian.product=false'''

set2 = '''SET hive.mapred.mode=strict'''

python hive hiveql pyhive hive-configuration

2019-02-20T10:48:37.557

0 投票

1 回答

1982 浏览

hive - 如何减少查询中的容器数量

我有一个使用太多容器和太多内存的查询。（使用了 97% 的内存）。有没有办法设置查询中使用的容器数量并限制最大内存？该查询正在 Tez 上运行。

提前致谢

hive mapreduce ambari apache-tez hive-configuration

2019-04-01T01:49:05.817

0 投票

1 回答

888 浏览

hive - 是否有任何用于设置“应用程序优先级”的参数？

我正在寻找一种方法来为配置单元中的任务设置应用程序优先级。提交任务时，我想为其设置高优先级（如 100）。这个参数可以在页面上看到：我正在寻找一个像'set mapreduce.map.memory.mb=4096;'这样的参数，所以我可以为这个任务设置优先级。

hive hadoop-yarn hive-configuration

2019-04-15T10:38:55.213

0 投票

1 回答

32 浏览

hive - 如何从具有相似命名模式的多个 Hive 表中查询数据？

这是我进入 Hive 的处女航。我有多个 Hive 表，例如名称如下的快照：

我有很多这样的快照表。现在，我需要构建一个脚本，该脚本将表名的一部分作为参数，并从所有类似命名的表中读取记录，并将所有这些表中的全部数据导出到单个 ORC 文件中。

如何在 Hive 中执行此操作？我不知道从哪里开始，因为我以前从未在 Hive 上工作过。有人可以帮帮我吗？提前谢谢各位。

hive hive-configuration

2019-06-12T14:01:10.617

0 投票

1 回答

1215 浏览

hadoop - hive 配置 hive.stats.fetch.partition.stats 不存在

我使用的是 hive 版本 3.1.1，当我尝试设置 hive.stats.fetch.partition.stats=true 时。我收到以下错误。hive.stats.fetch.partition.stats 在这个 hive 版本中不可用吗？

查询返回非零码：1、原因：hive配置hive.stats.fetch.partition.stats不存在。

hadoop hive hive-configuration

2019-06-13T11:47:22.657

0 投票

1 回答

464 浏览

hadoop - 会话期间何时设置 hive 参数？

我是新角色，其中一部分需要在托管和外部配置单元表中创建/插入数据。我们在 hive 会话开始时运行了几行“设置”参数，但我遇到了一些情况，例如，文件被合并为某些分区（文件数量很少），但不是其他人（许多较小的文件），似乎是随机的日子。

我的问题是：什么时候需要输入我所有的 Hive 设置参数？是否需要为我正在运行的每一个插入/命令/语句完成？还是在我启动 Hive 时仅在 Hive 会话开始时进行一次？

这些是我们一直在使用的标准设置参数：

hadoop hive parameters hiveql hive-configuration

2019-11-12T13:37:55.310

0 投票

1 回答

129 浏览

apache - 为什么需要在配置单元中为动态分区设置属性

我想知道 hive 动态分区中的一件事。在进行动态分区时，我们必须设置以下属性

没有这些属性，我们就无法进行动态分区。

我想知道为什么需要这些？谁能告诉我为什么我们需要设置这个属性。

apache hive hive-partitions hive-configuration

2020-02-04T12:16:22.100

0 投票

1 回答

663 浏览

hive - Cloudera 发行版中的 hive-site.xml 在哪里？

我想知道 hive-site.xml 文件配置在 Cloudera 发行版中的位置。

主要是因为我想知道在哪里可以找到以下属性：

也许是因为我想覆盖其中的一些。

我知道我可以在 Hive shell 中覆盖它们，但这仅适用于当前会话。

或者我可以创建一个 .hiverc 文件来初始化 Hive 覆盖一些属性。

但我想知道这些属性在 Cloudera 发行版中的位置。

我正在尝试这个：

但在这些文件中我没有看到这样的属性

也许 cloudera 正在使用其他属性文件。

有人可以帮助我吗？

提前致谢

问候。

hive properties-file cloudera-quickstart-vm hivecontext hive-configuration

2020-04-14T13:54:59.277

0 投票

1 回答

811 浏览

hadoop - Hive 分组中的减速器数量和计数（不同）

有人告诉我 count(distinct ) 可能会导致数据倾斜，因为只使用了一个 reducer。

我使用一个包含 50 亿个数据和 2 个查询的表进行了测试，

查询一：

查询 B：

实际上，查询 A 大约需要 1000-1500 秒，而查询 B 需要 500-900 秒。结果似乎在意料之中。

但是，我意识到这两个查询都使用370 mappersand1 reducers和 thay 几乎都有same cumulative CPU seconds. 这意味着它们没有基因差异，并且时间差异可能是由集群负载引起的。

我很困惑为什么所有人都使用一个 1 减速器，我什至尝试过mapreduce.job.reduces但它不起作用。顺便说一句，如果他们都使用 1 个减速器，为什么人们建议不要使用count(distinct )，而且数据倾斜似乎是无法避免的？

hadoop hive mapreduce hiveql hive-configuration

2020-05-13T06:40:44.820

1 2 3 4 5 6 7 8 9 10

问题标签 [hive-configuration]

Reference