对于生产类型的设置,将 TB 的记录写入 KAFKA 主题,使用 KAFKA 连接 - HDFS 连接器的最佳实践是什么?
我的 kafka 实例在 AWS 主机名 abcd 上运行,我的 hadoop 名称节点在 AWS 主机名 pqrs 上。出于开发/POC 的目的,我们在同一个盒子中保持融合,因为我们在 abcd 上运行 kafka 实例。HDFS 集群大小为 500GB。
但是对于集群大小为 20-30 TB 的生产类型设置,是否建议在与 KAFKA 实例相同的盒子或 Namenode 盒子或单独的盒子中保持融合?在这样的生产案例中,融合需要多少单独的磁盘大小?