我正在使用 Storm 实时处理来自 Kafka 的消息,并使用 streamparse 来构建我的拓扑。对于这个用例,我们必须 100% 保证进入 Storm 的任何消息都得到处理和确认。我已经使用 try/catch 在我的螺栓上实现了逻辑(见下文),除了将其写入 Kafka 中的另一个“错误”主题之外,我还想让 Storm 重播这些消息。
在我的 KafkaSpout 中,我将 tup_id 分配为等于我的消费者从中提供数据的 Kafka 主题的偏移量 id。但是,当我使用错误的变量引用在 Bolt 中强制出错时,我没有看到消息被重播。我确实看到有人写到“错误”Kafka 主题,但只有一次——这意味着元组永远不会被重新提交到我的螺栓中。我对 TOPOLOGY_MESSAGE_TIMEOUT_SEC=60 的设置,我希望 Storm 每 60 秒继续重播一次失败的消息,并让我的错误捕获继续写入错误主题,永远。
KafkaSpout.py
class kafkaSpout(Spout):
def initialize(self, stormconf, context):
self.kafka = KafkaClient(str("host:6667"))#,offsets_channel_socket_timeout_ms=60000)
self.topic = self.kafka.topics[str("topic-1")]
self.consumer = self.topic.get_balanced_consumer(consumer_group=str("consumergroup"),auto_commit_enable=False,zookeeper_connect=str("host:2181"))
def next_tuple(self):
for message in self.consumer:
self.emit([json.loads(message.value)],tup_id=message.offset)
self.log("spout emitting tuple ID (offset): "+str(message.offset))
self.consumer.commit_offsets()
def fail(self, tup_id):
self.log("failing logic for consumer. resubmitting tup id: ",str(tup_id))
self.emit([json.loads(message.value)],tup_id=message.offset)
进程螺栓.py
class processBolt(Bolt):
auto_ack = False
auto_fail = False
def initialize(self, conf, ctx):
self.counts = Counter()
self.kafka = KafkaClient(str("host:6667"),offsets_channel_socket_timeout_ms=60000)
self.topic = self.kafka.topics[str("topic-2")]
self.producer = self.topic.get_producer()
self.failKafka = KafkaClient(str("host:6667"),offsets_channel_socket_timeout_ms=60000)
self.failTopic = self.failKafka.topics[str("topic-error")]
self.failProducer = self.failTopic.get_producer()
def process(self, tup):
try:
self.log("found tup.")
docId = tup.values[0]
url = "solrserver.host.com/?id="+str(docId)
thisIsMyForcedError = failingThisOnPurpose ####### this is what im using to fail my bolt consistent
data = json.loads(requests.get(url).text)
if len(data['response']['docs']) > 0:
self.producer.produce(json.dumps(docId))
self.log("record FOUND {0}.".format(docId))
else:
self.log('record NOT found {0}.'.format(docId))
self.ack(tup)
except:
docId = tup.values[0]
self.failProducer.produce( json.dumps(docId), partition_key=str("ERROR"))
self.log("TUP FAILED IN PROCESS BOLT: "+str(docId))
self.fail(tup)
对于如何正确实现这种情况下的自定义失败逻辑,我将不胜感激。提前致谢。