-1

有没有办法在不从命令行停止拓扑并编辑正确文件的情况下注入新的 URL 进行爬网?我想用 Elasticsearch 作为索引器来做到这一点

4

1 回答 1

1

这取决于您使用什么作为后端来存储 URL 的状态。如果 URL 存储在 Elasticsearch 中的状态索引中,则无需重新启动爬网拓扑。您可以在本地模式下单独使用注入器拓扑将新 URL 注入状态索引。

SOLR 或 SQL 模块也是这种情况,但 MemorySpout + MemoryStatusUpdater 则不然,因为它存在于 JVM 中而不是其他任何地方。

你用哪个喷口?

于 2018-09-13T08:14:29.340 回答