0

我正在尝试为基于 CDP 私有云 1.4.3 的企业构建数据湖。(云厌恶,落后于时代十年 - 都是真的,但这些都是我的限制。)自从我在这个平台上构建架构已经很长时间了,所以我想对我的选择提出一些反馈:

数据湖架构

文件系统:OzoneFS - 修复 HDFS 的限制

对于原始数据湖:

  • 数据格式:Parquet(可能是 Hive)
  • 数据库引擎:Hive 查询 Parquet
  • 从外部数据源到原始数据湖的 ETL:Sqoop - 不是 NiFi,因为 ETL 非常庞大

对于已处理的数据湖:

  • 数据格式:实木复合地板

  • 数据库引擎:Spark

  • ETL 进出处理数据湖:Spark,因为转换很复杂

探索性查询:Impala

目录:阿特拉斯

保安:游侠

调度:Oozie - 不是 NiFi,因为 Oozie 更擅长重试

任何仍在使用这个平台的人,或者记得那个时代最先进的人的反馈,都将受到欢迎。你会做出什么不同的选择吗?根据用例决定备选方案的标准?

4

0 回答 0