0

我想将 RabbitMQ 与 StormCrawler 一起使用。我已经看到有一个使用 RabbitMQ 和 Storm 的存储库: https ://github.com/ppat/storm-rabbitmq

您将如何将其用于 StormCrawler?我想使用生产者和消费者。

对于消费者来说,似乎有一些文档。制片人呢?您可以将配置条目放在风暴爬虫配置中,还是我需要更改 RabbitMQProducer 的源代码?

4

1 回答 1

1

您希望将 URL 发送到 RabbitMQ 的 Bolt 扩展 AbstractStatusUpdaterBolt,因为超类在引擎盖下做了很多有用的事情,这意味着您不会使用开箱即用的 Producer,但需要编写一些自定义代码。

除非您确定不会有重复的 URL,否则无论如何都需要在将 URL 发送到队列之前对 URL 进行重复数据删除,这可以在您的自定义状态更新程序中使用 Redis 来完成。

于 2018-04-10T16:30:36.843 回答