亲爱的,
我正在考虑如何在给定的通用数据中心架构中正确使用 Streamsets 的选项:
- 我有几种数据类型(csv、tsv、json、来自 IOT 的二进制文件)需要由 CDC 捕获并以原样格式保存到 Kafka 主题中,然后原样沉入 HDFS 数据湖。
- 然后,另一个 Streamsets Pipeline 将从这个 Kafka 主题中消费,并将其转换为通用格式(取决于数据类型)为 JSON,并执行验证、屏蔽、元数据等并保存到另一个 Kafka 主题。
- 相同的 JSON 消息将以 Avro 格式保存到 HDFS Data Lake 中以进行批处理。
- 然后,我将使用 Spark Streaming 使用相同的 JSON 消息进行实时处理,假设 JSON 数据已准备就绪,并且可以进一步丰富其他数据以进行可扩展的复杂转换。
我没有使用 Streamsets 进行进一步处理,也没有使用 Spark Streaming 进行可扩展的复杂转换,这不是 SLA 管理的一部分(因为 Spark 作业不是从 Streamsets 中触发的)此外,我无法在此设计中将 Kafka Registry 与 Avro 一起使用验证 JSON 模式和 JSON 模式是基于作为 Javascript 嵌入到 StreamSets 中的自定义逻辑进行验证的。
上面的设计有什么可以做得更好的?
提前致谢...