hadoop - 蜂巢数据处理花费的时间比预期的要长

问问题 2016-12-26T09:53:36.753

481 次

我在 Hive 中遇到了 ORC 类型数据的问题。如果有人遇到类似问题，需要一些建议。

我有大量数据存储在配置单元表（分区和 ORCed）中。ORC 数据大小约为 4 TB。我正在尝试将此数据复制到未压缩的普通配置单元表（相同的表结构）。

该过程永远运行并在追求中占用大量非 DFS 存储。目前该进程运行了 12 小时，占用了 130 TB 的非 DFS。这对于拥有 20 台服务器的 Hadoop 集群来说是非常不正常的。

以下是我的参数：

Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**

我想知道这个 ORCed 表上的简单连接或正常分析操作会做什么。理论上，ORC 格式的数据可以提高基本 DML 查询的性能。

如果我做错了什么或者这是正常行为，有人可以告诉我吗？使用 ORCed 数据，这是我的第一次体验。

好吧，在开始时，我看到纱线日志文件被创建得非常大。大多数情况下，它仅以繁重的形式显示错误日志。

谢谢

0 回答 0