0

我计划部署一个 Google Search Appliance 来远程索引一个 Intranet 站点(跨大陆)。所以我将使用公司的网络,可能会消耗太多的带宽。关于我可以用来减轻初始爬网影响的配置(这是唯一被认为对网络危险的配置),我们有:

  • 爬网和索引 > 主机负载计划
    • Web 服务器主机负载:基本上是 1 分钟内与爬网服务器的并发连接数,因此应将此设置最小化
    • Web 服务器主机负载的例外情况:这是用于增加或减少与已爬网服务器的并发连接数的计划。
  • 抓取和索引 > 抓取时间表
    • 我应该选择计划的爬网,而不是连续爬网。

我是否走在正确的轨道上,是否可以配置其他设置以避免在 GSA 和 Web 服务器之间产生过多的网络流量?

4

3 回答 3

0

是的,我也会看看Freshness Tuningand Duplicate Hosts

  • 主机负载计划

    • Web 服务器主机负载
    • Web 服务器主机负载的例外情况
  • 爬行时间表

    • 爬行模式
  • 新鲜度调整

    • 经常爬行
    • 不经常爬行
于 2014-05-02T03:04:04.100 回答
0

正如 Tan Hong Tat 所说,看看 Freshness Tuning 和 Duplicate Hosts。我会将其设置为不经常抓取,至少在初始抓取完成之前。

也做一些内容分析。使用爬网模式,您可以指示 GSA 忽略某些内容类型(基于文件扩展名)或不包含对搜索体验有价值的内容的 Intranet 区域。

当您设置主机负载时,请记住您可以使用 0-1 之间的十进制值,例如:0.1。

如果他们有一个不错的 WAN 优化器,您可能会发现这不是您想象的问题。

于 2014-05-02T08:55:54.150 回答
0

尽量减少对远程站点的抓取的最佳方法是不抓取它。如果做不到这一点,有几个设置将帮助它,如上所述:

1) 主机负载计划

这将设置为主机的爬虫设置的当前线程数。 请注意,这可以是小于 1 的数字。(即 2.5) (BigMikeW 也指出)

2) 新鲜度调整

Crawl infrequently 实际上意味着“ Crawl never again”。这与元 URL 提要结合使用效果很好,它将告诉 GSA 重新抓取页面或来自管理控制台的重新抓取请求。Crawl 通常的意思是:“Crawl Per Day”。由于爬虫已重新调整并且硬件速度更快,因此此设置实际上并没有太大意义。GSA 将每天向其找到的页面提交内部请求。

3) 爬取时间表

我发现关闭爬虫并不是更好,而是将其保持在连续模式并将阈值设置为零。这允许自然 GSA 算法发挥作用。您希望通过调度实现的任何目标都可以通过在您希望爬虫安静的时间段内将其调整为零来实现。

我对最小化 WAN 流量的建议:1) 检查 DNS 并在必要时添加覆盖以确保您路由到最近的内容源 2) 将内容源模式设置为不经常抓取 3) 创建元 URL 提要以推送内容更新。

最后一个需要一些编码。这里有一个示例站点地图馈送器: https ://code.google.com/p/gsafeedmanager/

使用此配置,GSA 将永远不会重新抓取内容,并将依赖提要通知其更新。

备选方案:1) 确保内容源使用 LAST Modified Dates 响应 HEAD 请求。不要不频繁地配置爬网。GSA 将检测增量并随着时间的推移减慢爬取速度。

于 2014-05-05T03:53:55.207 回答