-1

我的网站有大约 500.000 页。我制作了 sitemap.xml 并列出了其中的所有页面(我知道每个文件有 50.000 个链接的限制,所以我有 10 个站点地图)。无论如何,我在 webmastertool 中提交了站点地图,一切似乎都很好(没有错误,我可以看到提交和索引链接)。Hoverer 我经常遇到爬虫的问题。GoogleBot 每天 4 次抓取同一页面,但在 sitemap.xml 中我告诉该页面每年都会更改。

这是一个例子

<url>
    <loc>http://www.domain.com/destitution</loc>
    <lastmod>2015-01-01T16:59:23+02:00</lastmod>
    <changefreq>yearly</changefreq>
    <priority>0.1</priority>
</url>

1) 那么如何告诉 GoogleBot 不要频繁爬虫,因为它会使我的服务器超载?

2)该网站有几个页面,如http://www.domain.com/destitution1http://www.domain.com/destitution2 ......我把规范网址放到http://www.domain.com/穷困潦倒。这可能是多蜘蛛的原因吗?

4

2 回答 2

1

爬行会逐渐减慢。机器人可能会重新访问您的页面,因为您的页面之间存在内部链接。

一般来说,规范往往会降低爬行率。但一开始,谷歌机器人需要同时抓取源页面和目标页面。稍后您将看到好处。

谷歌机器人不一定会考虑lastmod信息changefreq。但是,如果他们确定内容不被修改,他们就会减少回来的频率。这是时间问题。每个 URL 都有一个重新访问的调度程序。

机器人适应服务器的容量(有关更多详细信息,请参阅我维护的爬网摘要)。如果这是一个问题,您可以通过返回 http 错误代码 500 来暂时减慢机器人。他们会停下来,稍后再回来。

我不认为您的网站存在抓取问题。你看到的是正常行为。当同时提交多个站点地图时,可以暂时提高爬取率。

于 2015-05-01T18:55:37.597 回答
1

您可以将此报告给 Google 抓取团队,请参见此处:

一般来说,像这样的特定 Googlebot 抓取问题最好直接通过网站管理员工具处理。我会浏览您的主域的站点设置,即抓取速度,然后在此处使用“报告 Googlebot 问题”表单。通过此表单提交的内容将提交给我们的 Googlebot 团队,他们可以确定我们需要更改的内容(或如果有的话)。他们通常无法回复,也无法处理除了抓取问题之外的任何事情,但他们肯定知道 Googlebot 并且可以帮助调整它的功能。

https://www.seroundtable.com/google-crawl-report-problem-19894.html

于 2015-04-30T10:31:31.663 回答