尽量减少对远程站点的抓取的最佳方法是不抓取它。如果做不到这一点,有几个设置将帮助它,如上所述:
1) 主机负载计划
这将设置为主机的爬虫设置的当前线程数。 请注意,这可以是小于 1 的数字。(即 2.5) (BigMikeW 也指出)
2) 新鲜度调整
Crawl infrequently 实际上意味着“ Crawl never again”。这与元 URL 提要结合使用效果很好,它将告诉 GSA 重新抓取页面或来自管理控制台的重新抓取请求。Crawl 通常的意思是:“Crawl Per Day”。由于爬虫已重新调整并且硬件速度更快,因此此设置实际上并没有太大意义。GSA 将每天向其找到的页面提交内部请求。
3) 爬取时间表
我发现关闭爬虫并不是更好,而是将其保持在连续模式并将阈值设置为零。这允许自然 GSA 算法发挥作用。您希望通过调度实现的任何目标都可以通过在您希望爬虫安静的时间段内将其调整为零来实现。
我对最小化 WAN 流量的建议:1) 检查 DNS 并在必要时添加覆盖以确保您路由到最近的内容源 2) 将内容源模式设置为不经常抓取 3) 创建元 URL 提要以推送内容更新。
最后一个需要一些编码。这里有一个示例站点地图馈送器:
https ://code.google.com/p/gsafeedmanager/
使用此配置,GSA 将永远不会重新抓取内容,并将依赖提要通知其更新。
备选方案:1) 确保内容源使用 LAST Modified Dates 响应 HEAD 请求。不要不频繁地配置爬网。GSA 将检测增量并随着时间的推移减慢爬取速度。