0

对于生产类型的设置,将 TB 的记录写入 KAFKA 主题,使用 KAFKA 连接 - HDFS 连接器的最佳实践是什么?

我的 kafka 实例在 AWS 主机名 abcd 上运行,我的 hadoop 名称节点在 AWS 主机名 pqrs 上。出于开发/POC 的目的,我们在同一个盒子中保持融合,因为我们在 abcd 上运行 kafka 实例。HDFS 集群大小为 500GB。

但是对于集群大小为 20-30 TB 的生产类型设置,是否建议在与 KAFKA 实例相同的盒子或 Namenode 盒子或单独的盒子中保持融合?在这样的生产案例中,融合需要多少单独的磁盘大小?

4

1 回答 1

2

当您说“融合”时,我假设您是指 Connect 工作人员,因此此评论基于该假设。最明智的做法是尽可能将服务分开。将工作人员与代理分开运行,与 NameNode 分开运行。连接工作者需要很少的磁盘空间,因为它们不保存数据(独立模式下的偏移数据除外)。在分布式模式下,您可以弹性扩展工作人员,因此分离事物对于长期可扩展设置也更好。

对于您的用例,如果您想在同一个盒子中运行,您确实需要进行基准测试以确保性能是可以接受的。确定是否可以共同定位确实是一个咨询问题,需要您的用例详细信息达到可能不适合在线论坛的水平。

于 2017-01-25T13:10:01.117 回答