我正在尝试为基于 CDP 私有云 1.4.3 的企业构建数据湖。(云厌恶,落后于时代十年 - 都是真的,但这些都是我的限制。)自从我在这个平台上构建架构已经很长时间了,所以我想对我的选择提出一些反馈:
文件系统:OzoneFS - 修复 HDFS 的限制
对于原始数据湖:
- 数据格式:Parquet(可能是 Hive)
- 数据库引擎:Hive 查询 Parquet
- 从外部数据源到原始数据湖的 ETL:Sqoop - 不是 NiFi,因为 ETL 非常庞大
对于已处理的数据湖:
数据格式:实木复合地板
数据库引擎:Spark
ETL 进出处理数据湖:Spark,因为转换很复杂
探索性查询:Impala
目录:阿特拉斯
保安:游侠
调度:Oozie - 不是 NiFi,因为 Oozie 更擅长重试
任何仍在使用这个平台的人,或者记得那个时代最先进的人的反馈,都将受到欢迎。你会做出什么不同的选择吗?根据用例决定备选方案的标准?