我正在使用 StormCrawler 进行实时抓取。我在 ElasticSearch 中插入 Domain 并且 Crawler 爬行良好,我已经为每个 Domain 定义了爬行 URls 的限制(在SimpleFetcherBolt中使用 Redis )。
场景:当我插入一个域时,StormCrawler 开始爬行。现在在 ElasticSeeds 中输入一个新域,StormCrawler 不会立即获取它。
它正忙于获取先前域的页面。如果限制很高(比如 1000 个 URL),则至少需要 20 分钟才能开始在新插入的域上进行爬网。
我想要即时结果,是否可以在新域上设置任何优先级?或 StormCrawler 开始在新域上爬行 每当插入新域时?每个域的不同队列(DB)?
任何建议,将不胜感激。