问题标签 [hiveddl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sorting - 分区 BY、CLUSTERED BY 和 SORTED BY 与 BUCKETS 之间的 Hive 区别以及使用 PARTITIONED 和 CLUSTER BY 插入覆盖?
我已经看到了一些很好的解释来创建一个分区为CLUSTERED BY
和的表SORTED BY
。这与创建带有分区的表,然后使用填充表(INSERT OVERWRITE
例如)相比CLUSTER BY
如何?是CLUSTER BY
表内的持久排序吗?
amazon-s3 - 子目录上的 S3 hive 外部表不起作用
我有以下 s3 目录结构。
所以我正在创建蜂巢外部表如下
当我在这个表上运行查询时,没有任何数据返回,没有任何异常。如果我只将相同的文件放在一个目录中并且没有分区,那么它运行良好。我也试过 bey 设置
知道我哪里错了吗?
hive - 如何在 hive 中查找数据库中创建的表数?
我需要找出每个模式中创建的表的数量,并找出每个模式占用的大小。
hadoop - hive add partition 语句忽略前导零
我在 hdfs 上有文件夹
/user/test/year=2016/month=04/dt=25/000000_0
需要将上述分区路径添加到测试表中。
命令 :
但是这个添加分区命令忽略了月份分区中的前导零,并在 2016 内创建了一个额外的文件夹,月份 = 4。
/user/test/year=2016/month=04/
/user/test/year=2016/month=4/
并且 table 将指向/user/test/year=2016/month=4/
这个不包含任何数据的路径。
我检查了日志,上面写着
WARN org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer - Partition Spec month=04 has been changed to month=4
请让我知道是否有人遇到过这种问题以及如何避免这种情况?
Hive 版本是:1.2.1000
hive - DROP PARTITION 是否从 HIVE 的外部表中删除数据?
HIVE 中的外部表按年、月和日进行分区。
那么以下查询是否从外部表中删除此查询中引用的特定分区的数据?:-
hadoop - Hive - 静态分区 - 直接创建分区目录与使用 alter table 语句的区别
以下两个用于在配置单元中创建静态分区的语句之间是否存在任何内部/性能差异,我已经尝试了两种方法,并且在将数据加载到分区后它们都可以正常工作
hive - HIVE - 插入覆盖与删除表 + 创建表 + 插入
我在 hive 中做一些查询的自动脚本,我们发现我们需要时间从表中清除数据并插入新的数据。我们正在思考什么可以更快?
或者这样做更快:
运行查询的开销不是问题。由于我们也有创建脚本。问题是,INSERT OVERWRITE
十亿行的速度比DROP + CREATE + INSERT INTO
?
hive - 如何将列添加到现有的配置单元分区表?
我用上面的查询改变了我的表。但是在检查数据后,我得到了两个额外列的 NULL。我没有得到数据。
hive - Hive 临时表自动删除
在练习过程中,我在 hive 提示符中使用以下查询创建了 tmp 表。
现在表已成功创建,如果我关闭配置单元会话表将被配置单元自动删除,根据文档,这是正确的。
现在,还有其他方法可以使用以下命令运行相同的查询。
表已成功创建,但我怀疑这次,为什么 tmp 表这次不会被自动删除。执行下一个命令后,我仍然可以看到 tmp 表。
hive - 如何在 hive 中创建表的空副本
我有一张有很多列的桌子。我不想写类似的东西
有没有一种快速的方法来创建具有相同结构但没有任何数据的表?