我正在尝试使用 postgres sql 数据库作为后端来设置stormcrawler。但是没有关于需要存在哪些表才能启动风暴爬虫的文档。
我需要哪些表以及它们有哪些列?或者有什么方法可以自动创建所需的表?另外如何在这种模式下启动爬虫?因为我无法像示例爬虫拓扑那样发送种子 URL。
我正在尝试使用 postgres sql 数据库作为后端来设置stormcrawler。但是没有关于需要存在哪些表才能启动风暴爬虫的文档。
我需要哪些表以及它们有哪些列?或者有什么方法可以自动创建所需的表?另外如何在这种模式下启动爬虫?因为我无法像示例爬虫拓扑那样发送种子 URL。
请参阅tableCreationScript。对于 URL 的注入,您可以使用 insert 将它们自己添加到表中,如本教程中所示,或者重用 elasticsearch 模块中的注入拓扑并指定 mysql 模块中的 statusupdaterbolt。另一种方法可能是简单地将 MemorySpout 添加到 SQLSpout 旁边的拓扑中。