0

我们使用 Cloudera 作为我们的 hadoop 环境。

有人可以就如何将现有的 parquet/impala 集成或迁移到 kudu/impala 提供任何指导,以希望对我们现有的管道进行性能改进?

我们现有的管道在这里简要介绍:

我们以 csv/xlsx 格式接收数据;

  • 我们将它们移到 HDFS 上;

  • 我们以镶木地板的形式将它们保存到另一个位置;

  • 我们在 impala 中创建外部表,其位置指向分区 parquet 数据;

  • 我们在 pyspark、spark scala、spark sql 中完成 ETL 工作;

  • 我们将分析结果输出到 csv。

现有管道按预期工作,但是,随着数据保持持续增长,管道所需的时间/资源也会增加。

我们想知道将基于 parquet 的 impala 迁移到基于 kudu 的 impala 以获得更好的整体性能的最佳实践是什么?

非常感谢。

4

0 回答 0