我有几个关于 StormCrawler 的问题:http ://stormcrawler.net/
1.拒绝Shops的爬取:
我尝试在 default-regex-filters.txt: -(shop)中使用这个正则表达式。这是正确的方法吗?因为 Stormcrawler 仍然会抓取在其 URL 中某处有“商店”的网站。
2、“maxDepth”参数有什么作用?
我需要限制每个网站的抓取深度的可能性,例如只抓取距离 /home 站点“单击/级别”的页面。这是该用例的正确参数吗?如果没有,这个选项在哪里?
3. Elasticsearch:发现和获取
我会理解发现应该总是大于获取。但是我遇到了获取>发现的情况。是否有解释或发现和获取的确切含义是什么?
4.配置入口:parse.emitOutlinks
我真的不明白它的含义。有简单的解释吗?因为当我将它设置为false时,爬虫只爬取了 URL 的第一页,我不知道为什么。
5. “fetcherthreads”和“threads per Queue”的区别?
我们目前使用 200 个 fetcherthreads 和每个队列 20 个线程。这两者的比例如何?
很抱歉有这么多问题,但我非常感谢您的帮助。先感谢您!
问候,
乔乔