我正在尝试在多个喷口之间共享任务。我有一种情况,我一次从外部源获取一个元组/消息,并且我想要一个 spout 的多个实例,背后的主要目的是分担负载并提高性能效率。
我可以对一个 Spout 本身做同样的事情,但我想在多个 Spout 之间共享负载。我无法获得分散负载的逻辑。因为在特定的 spout 完成消费部分(即基于缓冲区大小设置)之前,消息的偏移量是未知的。
任何人都可以对如何解决逻辑/算法提出一些亮点吗?
提前感谢您的时间。
响应答案更新:
现在在 Kafka 上使用了多分区(即
5
)以下是使用的代码:
builder.setSpout("spout", new KafkaSpout(cfg), 5);
800 MB
通过在每个分区上充斥数据进行测试,并~22 sec
完成读取。
再次,使用parallelism_hint = 1的代码,
即builder.setSpout("spout", new KafkaSpout(cfg), 1);
现在需要更多~23 sec
!为什么?
根据 Storm Docs setSpout() 声明如下:
public SpoutDeclarer setSpout(java.lang.String id,
IRichSpout spout,
java.lang.Number parallelism_hint)
其中,
parallelism_hint - 应该分配给执行这个 spout 的任务数。每个任务将在集群周围某处的进程中的线程上运行。