0

我在 Hive 中遇到了 ORC 类型数据的问题。如果有人遇到类似问题,需要一些建议。

我有大量数据存储在配置单元表(分区和 ORCed)中。ORC 数据大小约为 4 TB。我正在尝试将此数据复制到未压缩的普通配置单元表(相同的表结构)。

该过程永远运行并在追求中占用大量非 DFS 存储。目前该进程运行了 12 小时,占用了 130 TB 的非 DFS。这对于拥有 20 台服务器的 Hadoop 集群来说是非常不正常的。

以下是我的参数:

Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**

我想知道这个 ORCed 表上的简单连接或正常分析操作会做什么。理论上,ORC 格式的数据可以提高基本 DML 查询的性能。

如果我做错了什么或者这是正常行为,有人可以告诉我吗?使用 ORCed 数据,这是我的第一次体验。

好吧,在开始时,我看到纱线日志文件被创建得非常大。大多数情况下,它仅以繁重的形式显示错误日志。

谢谢

4

0 回答 0