问题标签 [hive-configuration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Hive Map-Join 配置之谜
有人可以清楚地解释两者之间的区别吗
和
配置参数?
还有这些相应的尺寸参数:
和
我的观察是,当在 Tez 上运行时, hive.auto.convert.join.noconditionaltask.size
即使hive.mapjoin.smalltable.filesize
设置的值小于小表的大小,Map-Join 也会在设置为足够高的值时工作。
为什么我们都需要
hive.auto.convert.join
和hive.auto.convert.join.noconditionaltask
?
Apache 文档非常混乱。
python - pyhive:使用 pyhive 设置 hive 属性
我有一个复杂的配置单元查询,其底层连接是笛卡尔积。所以我需要设置以下属性。但是当我使用 pyhive 执行这些属性时,它无法执行。我收到一个错误,要求为笛卡尔设置属性。
set1 = '''SET hive.strict.checks.cartesian.product=false'''
set2 = '''SET hive.mapred.mode=strict'''
hive - 如何减少查询中的容器数量
我有一个使用太多容器和太多内存的查询。(使用了 97% 的内存)。有没有办法设置查询中使用的容器数量并限制最大内存?该查询正在 Tez 上运行。
提前致谢
hive - 如何从具有相似命名模式的多个 Hive 表中查询数据?
这是我进入 Hive 的处女航。我有多个 Hive 表,例如名称如下的快照:
我有很多这样的快照表。现在,我需要构建一个脚本,该脚本将表名的一部分作为参数,并从所有类似命名的表中读取记录,并将所有这些表中的全部数据导出到单个 ORC 文件中。
如何在 Hive 中执行此操作?我不知道从哪里开始,因为我以前从未在 Hive 上工作过。有人可以帮帮我吗?提前谢谢各位。
hadoop - hive 配置 hive.stats.fetch.partition.stats 不存在
我使用的是 hive 版本 3.1.1,当我尝试设置 hive.stats.fetch.partition.stats=true 时。我收到以下错误。hive.stats.fetch.partition.stats 在这个 hive 版本中不可用吗?
查询返回非零码:1、原因:hive配置hive.stats.fetch.partition.stats不存在。
hadoop - 会话期间何时设置 hive 参数?
我是新角色,其中一部分需要在托管和外部配置单元表中创建/插入数据。我们在 hive 会话开始时运行了几行“设置”参数,但我遇到了一些情况,例如,文件被合并为某些分区(文件数量很少),但不是其他人(许多较小的文件),似乎是随机的日子。
我的问题是:什么时候需要输入我所有的 Hive 设置参数?是否需要为我正在运行的每一个插入/命令/语句完成?还是在我启动 Hive 时仅在 Hive 会话开始时进行一次?
这些是我们一直在使用的标准设置参数:
apache - 为什么需要在配置单元中为动态分区设置属性
我想知道 hive 动态分区中的一件事。在进行动态分区时,我们必须设置以下属性
没有这些属性,我们就无法进行动态分区。
我想知道为什么需要这些?谁能告诉我为什么我们需要设置这个属性。
hive - Cloudera 发行版中的 hive-site.xml 在哪里?
我想知道 hive-site.xml 文件配置在 Cloudera 发行版中的位置。
主要是因为我想知道在哪里可以找到以下属性:
也许是因为我想覆盖其中的一些。
我知道我可以在 Hive shell 中覆盖它们,但这仅适用于当前会话。
或者我可以创建一个 .hiverc 文件来初始化 Hive 覆盖一些属性。
但我想知道这些属性在 Cloudera 发行版中的位置。
我正在尝试这个:
但在这些文件中我没有看到这样的属性
也许 cloudera 正在使用其他属性文件。
有人可以帮助我吗?
提前致谢
问候。
hadoop - Hive 分组中的减速器数量和计数(不同)
有人告诉我 count(distinct ) 可能会导致数据倾斜,因为只使用了一个 reducer。
我使用一个包含 50 亿个数据和 2 个查询的表进行了测试,
查询一:
查询 B:
实际上,查询 A 大约需要 1000-1500 秒,而查询 B 需要 500-900 秒。结果似乎在意料之中。
但是,我意识到这两个查询都使用370 mappers
and1 reducers
和 thay 几乎都有same cumulative CPU seconds
. 这意味着它们没有基因差异,并且时间差异可能是由集群负载引起的。
我很困惑为什么所有人都使用一个 1 减速器,我什至尝试过mapreduce.job.reduces
但它不起作用。顺便说一句,如果他们都使用 1 个减速器,为什么人们建议不要使用count(distinct )
,而且数据倾斜似乎是无法避免的?