cloudera - Cloudera 将基于镶木地板的黑斑羚迁移到基于 kudu 的黑斑羚的最佳实践是什么

问问题 2018-12-19T15:13:02.810

339 次

0

我们使用 Cloudera 作为我们的 hadoop 环境。

有人可以就如何将现有的 parquet/impala 集成或迁移到 kudu/impala 提供任何指导，以希望对我们现有的管道进行性能改进？

我们现有的管道在这里简要介绍：

我们以 csv/xlsx 格式接收数据；

我们将它们移到 HDFS 上；
我们以镶木地板的形式将它们保存到另一个位置；
我们在 impala 中创建外部表，其位置指向分区 parquet 数据；
我们在 pyspark、spark scala、spark sql 中完成 ETL 工作；
我们将分析结果输出到 csv。

现有管道按预期工作，但是，随着数据保持持续增长，管道所需的时间/资源也会增加。

我们想知道将基于 parquet 的 impala 迁移到基于 kudu 的 impala 以获得更好的整体性能的最佳实践是什么？

非常感谢。

0 回答 0