amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

Question

对于生产类型的设置，将 TB 的记录写入 KAFKA 主题，使用 KAFKA 连接 - HDFS 连接器的最佳实践是什么？

我的 kafka 实例在 AWS 主机名 abcd 上运行，我的 hadoop 名称节点在 AWS 主机名 pqrs 上。出于开发/POC 的目的，我们在同一个盒子中保持融合，因为我们在 abcd 上运行 kafka 实例。HDFS 集群大小为 500GB。

但是对于集群大小为 20-30 TB 的生产类型设置，是否建议在与 KAFKA 实例相同的盒子或 Namenode 盒子或单独的盒子中保持融合？在这样的生产案例中，融合需要多少单独的磁盘大小？

score 2 · Accepted Answer

当您说“融合”时，我假设您是指 Connect 工作人员，因此此评论基于该假设。最明智的做法是尽可能将服务分开。将工作人员与代理分开运行，与 NameNode 分开运行。连接工作者需要很少的磁盘空间，因为它们不保存数据（独立模式下的偏移数据除外）。在分布式模式下，您可以弹性扩展工作人员，因此分离事物对于长期可扩展设置也更好。

对于您的用例，如果您想在同一个盒子中运行，您确实需要进行基准测试以确保性能是可以接受的。确定是否可以共同定位确实是一个咨询问题，需要您的用例详细信息达到可能不适合在线论坛的水平。

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

1 回答 1

Related

Reference