我已从建议的网站http://kafka.apache.org/阅读了整个文档,但无法理解硬件要求
1)我需要澄清:为单个主题每天收集至少 50GB 数据需要多少个分区和复制
2)假设0000000000000.log文件最多可以存储100GB的数据。是否可以减小此日志文件大小以减少 I/O 的使用?
我已从建议的网站http://kafka.apache.org/阅读了整个文档,但无法理解硬件要求
1)我需要澄清:为单个主题每天收集至少 50GB 数据需要多少个分区和复制
2)假设0000000000000.log文件最多可以存储100GB的数据。是否可以减小此日志文件大小以减少 I/O 的使用?
如果数据在一整天内统一摄取,这意味着您需要每秒摄取 600kb 之类的数据,这完全取决于这 600kb 上的消息数量(根据 Jay Creps 的解释,您需要计算类似 22每条消息的开销字节)(请记住,您从生产者那里确认消息的方式也非常重要)
但是您应该能够使用 1 个主题和 1 个分区从生产者那里获得此吞吐量。
1.检查这个链接它有选择#partitions的答案:http:
//www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/][ 1]
是的,可以更改 kafka 中日志文件的最大大小。您必须在每个代理上设置下面提到的属性,然后重新启动代理。
log.segment.bytes=1073741824
上面的行将日志段大小设置为 1GB。