问题标签 [hive-partitions]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 在动态分区下嵌套静态分区
在 Hive 中,为什么我不允许在动态分区下嵌套静态分区?
例如,以下是允许的
但这是不允许的
我发现官方 wiki 页面解释(如下所示)不足。更喜欢逻辑解释或底层 map-reduce 级别的解释。
hive - Hive 运行时错误:无法反序列化减少输入键
我正在尝试通过涉及的分组运行插入到分区表中
询问
错误:
我从未见过这个错误。有谁知道如何照顾这个?
如果我只使用查询的选择部分,不包括插入分区表,则此查询工作正常。
hadoop - 配置单元设置 hive.optimize.sort.dynamic.partition
我正在尝试插入具有动态分区的配置单元表。过去几天,相同的查询一直运行良好,但现在出现以下错误。
当我使用以下设置时,查询运行良好
当我将此值设置为 true 时,它会给出相同的错误。
源表以序列格式存储,目标表以 RC 格式存储。谁能解释这个设置在内部有什么不同?
amazon-s3 - 子目录上的 S3 hive 外部表不起作用
我有以下 s3 目录结构。
所以我正在创建蜂巢外部表如下
当我在这个表上运行查询时,没有任何数据返回,没有任何异常。如果我只将相同的文件放在一个目录中并且没有分区,那么它运行良好。我也试过 bey 设置
知道我哪里错了吗?
hadoop - 如何在hive中获取表是动态分区还是静态分区
试图在 hive 中找到具有动态分区的表列表,尝试了以下命令,但没有找到线索,
尝试过的命令
hive - Hive 外部表最佳分区大小
外部表分区的最佳大小是多少?我计划按年/月/日对表进行分区,我们每天会获得大约 2GB 的数据。
hadoop - hive add partition 语句忽略前导零
我在 hdfs 上有文件夹
/user/test/year=2016/month=04/dt=25/000000_0
需要将上述分区路径添加到测试表中。
命令 :
但是这个添加分区命令忽略了月份分区中的前导零,并在 2016 内创建了一个额外的文件夹,月份 = 4。
/user/test/year=2016/month=04/
/user/test/year=2016/month=4/
并且 table 将指向/user/test/year=2016/month=4/
这个不包含任何数据的路径。
我检查了日志,上面写着
WARN org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer - Partition Spec month=04 has been changed to month=4
请让我知道是否有人遇到过这种问题以及如何避免这种情况?
Hive 版本是:1.2.1000
hive - DROP PARTITION 是否从 HIVE 的外部表中删除数据?
HIVE 中的外部表按年、月和日进行分区。
那么以下查询是否从外部表中删除此查询中引用的特定分区的数据?:-
hadoop - Hive - 静态分区 - 直接创建分区目录与使用 alter table 语句的区别
以下两个用于在配置单元中创建静态分区的语句之间是否存在任何内部/性能差异,我已经尝试了两种方法,并且在将数据加载到分区后它们都可以正常工作