问题标签 [hive-configuration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 蜂巢中的 maxCombinedSplitSize 属性?
猪中有一个属性名为
' pig.maxCombinedSplitSize ' - 指定单个映射要处理的数据的大小(以字节为单位)。较小的文件被合并,直到达到这个大小。
hive中是否有类似的属性来指定单个地图要处理的数据大小?
我正在尝试以下命令,但它不起作用。
有什么建议么?
hadoop - Hive 使用来自嵌套子目录的输入创建表
我在 HDFS 中的文件路径中有 Avro 格式的数据,例如:/data/logs/[foldername]/[filename].avro
. 我想在所有这些日志文件上创建一个 Hive 表,即所有形式的文件/data/logs/*/*
。(它们都基于相同的 Avro 模式。)
我正在使用 flag 运行以下查询mapred.input.dir.recursive=true
:
LOCATION
除非我更改为嵌套较少,即'hdfs://.../data/[foldername]/'
使用某个文件夹名称,否则该表最终为空。对于LOCATION
.
我希望能够从所有这些不同的 [文件夹名] 文件夹中获取数据。如何使递归输入选择在我的嵌套目录中走得更远?
hive - Hive 属性未设置
我在 hive-site.xml 中设置以下属性:
但是,如果我在配置单元控制台中运行show conf "hive.exec.dynamic.partition.mode";
,我会得到strict
有没有人知道为什么我在 hive-site.xml 中的配置属性没有覆盖默认属性?此外,我还尝试使用set
命令从控制台设置此属性,但也没有运气。
amazon-web-services - 在 Amazon EMR 中设置配置单元属性?
我正在尝试使用 Amazon EMR 运行 Hive 查询,并试图让 Apache Tez 也可以使用它,据我所知,这需要根据hive 站点hive.execution.engine
设置属性?tez
我知道 hive 属性可以设置为set hive.{...}
通常或在 中hive-site.xml
,但我不知道其中任何一个如何与/在 Amazon EMR 中进行交互。
那么:有没有办法在 Amazon EMR 中设置 Hive 配置属性,如果可以,如何设置?
谢谢!
hadoop - 在 Hive 中使用保留字
我正在将数据迁移到 Hive 1.2,并且我意识到,默认情况下,我不再被允许使用保留字作为列名。如果要使用保留字,则需要显式设置以下设置:
我的问题是,更改此默认值是否会导致任何意外问题?在更改之前我应该注意哪些问题?
顺便说一句,此票证中记录了此更改:https ://issues.apache.org/jira/browse/HIVE-6617
hadoop - 避免用户覆盖 hadoop 2 中的默认 mapred 属性
如何避免用户在提交 hive 作业时覆盖 hadoop 配置文件的默认属性?
示例:
mapred-site.xml:
用户在配置单元作业中使用以下属性来覆盖
hive - 看hive.exec.dynamic.partition值的hive命令是什么
我们知道 set 命令是用来给属性设置一些值的
但是我们如何读取上述属性的当前值
我尝试了以下命令,它不起作用
有人可以帮助获取正确的配置单元命令来读取上述属性的当前值。
hadoop - 可以从文件中加载 hiveconf 变量吗?(与 HiveQL 文件分开)
我经常有一大块 HiveQL,我想对某些变量使用不同的设置多次运行它。
一个简单的例子是:
然后通过hive -f myfile.sql > myout.log
后来,我想更改变量并重新运行。我还想记录每次运行时变量的值。
因此,我目前制作了 HiveQL 文件的副本,这些副本除了变量值之外是相同的。然而,这显然很容易出错,因为如果我需要更改实际的 HiveQL,那么我必须在每个文件中更改它。
理想情况下,我可以将所有设置存储为 JSON 文件(或其他文件),并让我的 HiveQL 文件完全动态。有没有办法做到这一点?
hadoop - 为什么 Hive 中的 Fetch 任务比 Map-only 任务更快?
可以使用 hivehive.fetch.task.conversion
参数在 Hive 中启用 Fetch 任务以进行简单查询,而不是 Map 或 MapReduce。
请解释为什么 Fetch 任务的运行速度比 Map 快得多,尤其是在做一些简单的工作时(例如select * from table limit 10;
)?在这种情况下,还有哪些仅地图任务正在执行?就我而言,性能差异要快 20 倍以上。这两个任务都应该读取表数据,不是吗?
sql - HIVE select count(*) 非 null 返回比 select count(*) 更高的值
我目前正在使用 Hive 进行一些数据探索,无法解释以下行为。假设我有一个带有 master_id 字段的表(名为 mytable)。
当我计算得到的行数时
如果我想计算具有非空 master_id 的行数,我会得到一个更高的数字
此外,master_id 似乎永远不会为空。
我无法解释如何添加 where 语句最终会增加行数。有没有人有任何暗示来解释这种行为?
谢谢