postgresql - 如何使用 Postgres 设置风暴爬虫？

Question

我正在尝试使用 postgres sql 数据库作为后端来设置stormcrawler。但是没有关于需要存在哪些表才能启动风暴爬虫的文档。

我需要哪些表以及它们有哪些列？或者有什么方法可以自动创建所需的表？另外如何在这种模式下启动爬虫？因为我无法像示例爬虫拓扑那样发送种子 URL。

score 0 · Accepted Answer

请参阅tableCreationScript。对于 URL 的注入，您可以使用 insert 将它们自己添加到表中，如本教程中所示，或者重用 elasticsearch 模块中的注入拓扑并指定 mysql 模块中的 statusupdaterbolt。另一种方法可能是简单地将 MemorySpout 添加到 SQLSpout 旁边的拓扑中。

postgresql - 如何使用 Postgres 设置风暴爬虫？

1 回答 1

Related

Reference